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12-3; Nightingale 数据 集 的 一 个 完整 折线 图 
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13-5: 使 用 hexbin() 函数 分 组 的 例子 
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B 16-5: 相关 和 矩阵 的 可 视 化 。 这 是 一 种 概括 或 近似 的 散 点 图 矩阵 ， 由 corrplot 包 中 的 corrplot() 
KAEN. ZE, method = "circle"; 右上 图 ，method = "color"; Æ FÆ, method= 
"number"; 4 FÆ, method= "ellipse", type="Lower" 
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图 17-3: 通过 使 用 car 包 中 的 scatter3d() 函数 绘制 的 带 有 预测 面板 的 三 维 散 点 图 



































通过 lattice 包 中 的 levelplot() 生成 的 coalash 数据 的 伪 色 图 。 任 意 点 上 coalash 的 总 
量 由 颜色 梯度 表示 
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19-3: 以 默认 颜色 表示 的 mtcars 数据 集 的 热 图 
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19-4: 用 一 系列 蓝 色 表示 的 mtcars 数据 集 的 热 图 
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19-5; mtcars 中 集群 的 热 图 
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图 19-6: 使 用 gplots 包 中 的 heatmap.2() 生成 的 mtcars 的 热 图 
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20-6: 图 20-3 中 结果 的 残 差 阴影 
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内 容 提 要 


本 书 介绍 如 何 使 用 图 形 化 的 方法 来 分 析 和 理解 复杂 的 数据 ， 该 方法 突出 数据 中 重要 的 关联 和 
分 布 趋势 ， 并 使 用 尽 可 能 简单 的 视觉 元 素来 呈现 尽 可 能 丰富 的 信息 。 本 书 重点 介绍 如 何 理解 数据 
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市 练习 解答 、 相 关 R 函数 、R 包 、 故 障 排 查 等 信息 ， 便 于 读者 深入 学 习 。 
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谚语 说 :“ 一 图 胜 千言 。 有 时 ， 一 张 图 也 胜 过 很 多 数据 。 相 比 口头 描述 细微 差别 或 者 辨别 
成 列 数字 间 的 关系 ， 通 过 观察 图 片 或 图 表 更 容易 把 握 数据 间 的 复杂 关系 。 本 书 主要 介绍 如 
何 使 用 图 形 化 方法 来 理解 复杂 的 数据 ， 该 方法 强调 重要 的 关系 和 趋势 ， 简 化 数据 形式 ， 并 
且 使 大 量 数据 一 目 了 然 。 


目标 读者 

任何 需要 分 析 数 据 和 可 视 化 数据 的 人 ， 都 能 从 本 书 中 受益 。 然 而 ， 我 的 主要 目的 是 使 更 广 
泛 的 人 群 理解 图 形 数据 分 析 ， 特 别 是 那些 没有 太 多 (或 任何 ) R 相关 经 验 ， 但 又 需要 或 想 
要 创建 各 种 类 型 的 图 表 来 理解 重要 数据 的 人 。 这 些 人 可 能 来 自 商业 、 媒 体 、 平 面 艺 术 、 社 
会 科学 或 者 健康 科学 领域 ， 真 的 需要 分 析 数 据 ， 但 可 能 并 没有 高 等 数学 和 计算 机 编程 的 青 
景 。 虽 然 本 书 专 为 自学 设计 ， 但 也 可 作为 初中 级 统计 课程 或 研究 的 补充 材料 。 


本 书 使 用 的 工具 是 R。 这 不 是 一 本 关于 有 的 内 容 全 面 的 教材 。 许 多 计算 机 课程 和 图 书 都 试 
图 告诉 你 借助 一 种 语言 或 工具 可 能 做 的 每 一 件 事 。 对 于 曾经 想 按 此 方式 学 习 的 大 多 数 人 来 
说 ， 这 种 方式 令 人 感到 十 分 烦恼 和 无 聊 。 本 书 将 把 重点 放 在 理解 数据 分 析 的 图 形 元 素 和 如 
可 使 用 R 生成 本 书 讨论 的 各 种 图 形 ， 也 将 展示 如 何 使 用 R 的 一 些 内 置 资 源 来 获得 帮助 ， 很 
多 其 他 内 容 则 留 给 你 继续 探究 。 你 应 该 有 台 可 用 的 计算 机 ， 用 它 可 轻松 完成 一 些 工 作 ， 如 
发 送 电子 邮件 、 浏 览 互 联网 ， 或 者 使 用 文字 处 理 软件 、 电 子 表格 等 应 用 程序 。 熟 悉 基 本 的 
统计 知识 有 利于 理解 本 书 的 一 些 主题 ,但 对 于 大 多 数 主 题 ， 这 并 不 是 必需 的 。 


为 什么 选择 R 

小 数据 量 的 图 表 可 以 手工 制作 ， 但 是 利用 计算 机 技术 会 更 高 效 、 准 确 地 分 析 数 据 ， 生 成 有 
吸引 力 的 图 形 。 对 于 大 批量 数据 来 说 ， 手 工 处 理 实际 上 是 不 可 能 的 。 而 运用 计算 机 软件 ， 
即使 是 针对 非常 大 的 数据 量 ， 也 可 以 生成 复杂 的 图 形 。 
























































































































































实际 上 ， 开 源 软件 已 经 实现 了 该 技术 ， 只 要 拥有 一 台 计 算 机 。 开源” 指 的 是 所 有 人 均 可 
获取 项 目的 源 代码 ， 可 检查 、 使 用 、 自 由 修改 或 增加 源 代 码 。 





开源 软件 产品 可 提供 免费 下 载 给 任何 有 需要 的 人 。 或 许 你 会 怀疑 免费 的 东西 质量 不 高 ， 但 
我 向 你 保证 ， 一 些 自由 软件 遵循 了 最 高 的 专业 标准 。 


本 书 选用 的 R 语言 是 一 种 编程 语言 ， 是 一 个 统计 、 数 学 和 绘图 程序 集合 ， 已 经 被 世界 各 地 
数 百 万 人 使 用 ， 包 括 科 学 、 商 业 和 媒体 等 领域 的 许多 专业 人 士 。 在 网 站 、 主 要 报纸 和 其 他 
出 版 物 上 ， 你 可 能 见 过 由 R 制作 的 图 形 。 你 也 将 能 够 制作 出 这 种 专业 的 数据 图 表 ， 因 为 
R 可 运行 在 Windows, Mac 或 Linux 操作 系统 上 ， 而 现在 的 PC 和 笔记 本 无 非 就 这 几 类 系 
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如 何 使 用 本 书 

要 想 从 本 书 获 益 ， 你 需要 动手 制作 大 量 图 表 。 为 此 ， 阅 读本 书 时 ， 你 最 好 坐 在 计算 机 前 
操作 书 中 给 出 的 所 有 命令 。 而 且 为 帮助 你 提升 水 平 ， 许 多 章节 除 示例 以 外 还 提供 了 练习 ， 
比如 优化 示例 代码 或 将 不 同 的 数据 集 制 成 另外 一 张 图 。 最 好 先 做 完 这 些 练习 再 进入 下 一 
主题 。 


排版 约定 


本 书 使 用 了 下 列 排版 约定 。 











。 楷体 
表示 新 术语 。 

。 等 宽 字 体 (constant width) 
表示 程序 片段 ， 以 及 正文 中 出 现 的 变量 、 国 数 名 、 数 据 库 、 数 据 类 型 、 环 境 变 量 、 话 句 
和 关键 字 等 。 


。 加 粗 等 宽 字 体 (constant width bold) 
表示 应 该 由 用 户 输 入 的 命令 或 其 他 文本 。 





。 斜体 等 宽 字 体 (constant width italic) 
表示 应 该 由 用 户 输入 的 值 或 根据 上 下 文 确定 的 值 替 换 的 文本 。 


该 图 标 表示 一 般 注 释 。 
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代码 示例 的 使 用 


本 书 会 帮 你 完成 工作 。 一 般 来 说 ， 如 果 本 书 提供 了 示例 代码 ， 你 可 以 把 它 用 在 你 的 程序 或 
文档 中 。 除 非 你 使 用 了 很 大 一 部 分 代码 ， 否 则 无 需 联系 我 们 获得 许可 。 比 如 ， 用 本 书 的 几 
个 代码 片段 写 一 个 程序 就 无 需 获 得 许可 ， 而 销售 或 分 发 OReilly 图 书 的 示例 光盘 则 需要 获 
得 许可 ;引用 本 书 中 的 示例 代码 回答 问题 无 需 获 得 许可 ， 而 将 书 中 大 量 的 代码 放 到 你 的 产 
品 文档 中 则 需要 获得 许可 。 


我 们 很 希望 但 并 不 强制 要 求 你 在 引用 本 书 内 容 时 加 上 引用 说 明 。 引 用 说 明 一 般 包括 书 
名 、 作 者 、 出 版 社 和 ISBN。 比 如 :“Graphing Data with R by John Jay Hilfiger (O’Reilly). 
Copyright 2016 John Jay Hilfiger, 978-1-491-92261-3.” 
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如 果 你 觉得 自己 对 示例 代码 的 用 法 超出 了 上 述 许可 的 范围 ， 欢 迎 你 通过 permissions @ 
oreilly.com 与 我 们 联系 。 








Safari? Books Online 


.© Safari Books Online (http://www.safaribooksonline.com) 是 应 运 而 

4 Safa F| 生 的 数字 图 书馆 。 它 同时 以 图 书 和 视频 的 形式 出 版 世界 顶级 技术 

和 商务 作家 的 专业 作品 。 技 术 专家 、 软 件 开发 人 员 、Web 设计 师 、 

商务 人 士 和 创意 专家 等 ， 在 开展 调研 、 解 决 问题 、 学 习 和 认证 培训 时 ， 都 将 Safari Books 
Online 视 作 获 取 资 料 的 首选 渠道 。 
































对 于 组 织 团体 、 政 府 机 构 和 个 人 ，Safari Books Online 提供 各 种 产品 组 合 和 灵活 的 定 
价 策略 。 用 户 可 通过 一 个 功能 完备 的 数据 库 检 索 系 统 访问 O’Reilly Media, Prentice 
Hall Professional, Addison-Wesley Professional, Microsoft Press, Sams, Que, Peachpit 








Press, Focal Press, Cisco Press, John Wiley & Sons, Syngress, Morgan Kaufmann, IBM 
Redbooks, Packt, Adobe Press, FT Press. Apress, Manning, New Riders, McGraw-Hill, 
Jones & Bartlett, Course Technology 以 及 其 他 几 十 家 出 版 社 的 上 千 种 图 书 、 培 训 视 频 和 正 
式 出 版 之 前 的 书稿 。 要 了 解 Safari Books Online 的 更 多 信息 ， 我 们 网 上 见 。 


联系 我 们 


请 把 对 本 书 的 评价 和 问题 发 给 出 版 社 。 














美 
O’Reilly Media, Inc. 
1005 Gravenstein Highway North 
Sebastopol, CA 95472 
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中 国 : 
北京 市 西城 区 西直门 南大 街 2 号 成 铭 大 厦 C 座 807 (100035) 
奥 菜 利 技术 咨询 (北京) ARAE 











你 还 可 以 发 送 电子 邮件 到 bookquestions@oreilly.com。 
勘误 、 示 例 和 其 他 信息 可 到 http://www.oreilly.com/catalog/0636920038382.do 上 获取 。 


欲 了 解 本 社 图 书 、 课 程 、 会 议和 新 闻 等 更 多 信息 ， 请 访问 我 们 的 网 站 http://www.oreilly.com, 





我 们 在 Facebook 的 地 址 如 下 : http://facebook.com/oreilly。 





请 关注 我 们 的 Twitter 动态 : http://twitter.com/oreillymedia。 


我 们 的 YouTube 视频 地 址 如 下 : http:/Avww.youtube.com/oreillymedia, 
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心 、 理 解 和 鼓励 ， 对 我 完成 本 书 至 关 重 要 。 我 们 的 儿子 Eric 和 女儿 Kristen 读 了 第 1 章 后 ， 
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电子 书 














电子 版 。 











第 一 部 分 


开始 使 用 R 








在 本 部 分 中 ， 我 们 将 学 习 R 语言 的 一 些 基 本 命令 ， 还 将 了 解数 据 类 型 ， 如 何 准 备 R 语言 
使 用 的 数据 ， 以 及 如 何以 R 语 言 支持 的 格式 导入 其 他 软件 的 数据 ， 以 便 用 有 R 进行 分 析 。 
之 后 将 讨论 R 图 的 一 些 特殊 性 质 ， 例 如 如 何 保存 R 图 以 便 用 于 其 他 程序 ， 以 及 数据 分 析 


的 图 形 和 用 于 图 形 化 展示 的 图 形 之 间 的 差别 等 。 最 后 ， 简 要 地 看 看 儿 个 R 语 言 用 户 可 以 
使 用 的 图 形 系统 。 





























第 1 章 


R 基 础 





1.1 下 载 软件 

首先 需要 下 载 免费 的 R 软件 ， 并 安装 在 你 的 计算 机 上 。 启 动 计算 机 ， 打 开 Web 浏览 
器 ， 通 过 网 址 http://www.r-project.org 访问 统计 计算 的 R 项 目 (R Project for Statistical 
Computing) 。 点 击 download R， 然 后 选 一 个 距离 你 所 在 地 理 位 置 较 近 的 镜像 站 点 。(R ER 
件 存储 在 世界 各 地 的 许多 计算 机 上 ， 而 不 是 一 台 计 算 机 上 。 因 为 它们 都 包含 相同 的 文件 ， 
看 起 来 一 样 ， 所 以 被 称 为 “镜像 ”网 站 。 你 可 以 选择 其 中 任何 一 台 计 算 机 。) 点 击 网 站 地 
址 ， 将 打开 一 个 页 面 ， 可 以 根据 你 的 操作 系统 选择 R 的 版 本 。 如 果 你 的 计算 机 可 以 运行 
最 新 版 本 的 R 一 一 3.0 或 更 高 版 本 一 一 那 再 好 不 过 了 。 然 而 ， 如 果 你 的 计算 机 用 了 几 年 了 ， 
不 能 运行 最 新 的 版 本 ， 那 就 选 计算 机 可 以 运行 的 最 新 版 本 。 也 许 会 和 本 书 中 的 例子 有 一 些 
小 的 差异 ， 但 应 该 可 运行 大 多 数 例子 。 





























按照 说 明 ， 在 短 时 间 内 就 可 安装 好 R。 这 是 基础 R (base R), RAATS (AITES 
IK) 插件 “ 包 ”。 完 成 R 的 基础 安装 后 ， 你 可 以 免费 下 载 插件 来 扩展 R 的 功能 。 根 据 你 的 
需要 ， 也 可 能 不 需要 添加 任何 插件 ， 但 是 你 可 能 会 很 惊奇 地 发 现 一 些 你 想象 不 到 但 必须 拥 
有 的 功能 。 


1.2 ”尝试 一 些 简单 的 任务 


若 你 使 用 的 是 Windows 或 OS X 系统 ， 单 击 桌 面 上 的 “R” 图 标 即 可 启动 R。 若 使 用 的 是 
Linux 或 OS X 系统 ， 在 终端 窗口 输入 命令 R 可 打开 控制 台 (console)。 在 控制 台 窗 口 输入 
命令 ， 可 看 到 许多 命令 的 结果 ， 尽 管 在 大 多 数 情 况 下 ， 创 建 图 形 的 命令 将 打开 一 个 新 窗口 
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来 展示 结果 图 。R 可 接受 命令 时 ， 会 显示 一 个 大 于 符号 (>) 作为 提示 符 。R 最 简单 的 应 用 
是 计算 右 。 在 提示 符 后 ， 输 入 一 个 你 想 要 获得 答案 的 数学 表达 式 : 








>12/4 

[1] 3 
此 处 ， 我 们 请 求 “12 除 以 4 。R 返回 “3”， 然 后 显示 另 一 个 提示 符 “>”， 表 明 可 以 输入 
下 一 个 命令 。 返 回 值 前 的 [1] 是 一 个 索引 (index)， 在 本 例 中 ， 它 只 是 表明 返回 值 从 向 量 
(vector) 中 的 第 一 个 数 开 始 。 本 例 中 只 有 一 个 值 ， 但 有 时 会 有 多 个 值 ， 所 以 了 解数 据 集合 
从 哪里 开始 会 有 帮助 。 如 果 你 不 理解 索引 ， 现 在 也 不 用 担心 ， 看 到 更 多 的 例子 后 ， 你 将 更 
清楚 。 除 法 符号 (/) 叫 作 操作 符 (operator), X 1-1 给 出 了 标准 算术 运算 符 的 符号 。 

















表 1-1，R 算 术 运 算 符 








运算 符 运算 举例 
加 法 3 + 4 = 7 或 3+4 ( 即 无 空格 ) 

= 减法 5-2=3 

a 乘法 100*2.5=250 

/ 除法 20/5= 4 

^ 或 类 Ens 342 = 9 By 3**2 = 9 

E 取 余 5%%2 = 1 (5/2=2 & 1) 

%/% Bays, Tal Pe ee 5%/% = 2 (5/2=2.5， 向 下 取 整 等 于 2) 














你 可 以 像 在 普通 算术 中 那样 使 用 括号 ， 以 表明 操作 的 执行 顺序 : 


> (4/2)+1 
[1] 3 

> 4/(2+1) 
[1] 1.333333 


尝试 另 一 个 例子 : 


> sqrt(57) 
[1] 7.549834 





Kibet A (function) 来 完成 运算 ， 本 例 用 的 是 sqrt() 函数 。 表 1-2 列 出 了 一 些 常用 
的 算术 函数 。 
表 1-2: 常用 的 R 数 学 函数 











函数 运算 函数 运算 函数 运算 
cos() 余弦 exp() 指数 函数 max() 最 大 值 
sin() 正弦 sum() 求 和 var() 方差 
tan() 正切 mean() 均值 sd() 标准 差 
sqrt() 平方 根 median() 中 间 值 

1og() 对 数 min() 最 小 值 

















调用 函数 时 可 带 参数 (argument) 。 参 数 是 一 种 修饰 符 ， 与 函数 一 起 使 用 时 可 以 用 更 多 特 
殊 的 方式 请 求 R。 因 此 ， 可 能 会 请 求 计算 特定 数字 的 和 ， 而 不 是 单单 请 求 sum 国 数 ， 或 者 ， 
你 可 以 使 用 参数 来 指定 线 的 颜色 或 宽度 ， 而 不 是 简单 地 在 图 上 画 一 条 线 。 单 个 或 多 个 参 
数 ， 必 须 在 国 数 名 后 用 括号 括 起 来 。 当 使 用 函数 或 任何 R 命 令 时 ， 如 果 需 要 帮助 ， 可 使 用 
如 下 方式 寻求 帮助 : 


























> help(sum) 





R 将 打开 一 个 新 窗口 ， 显 示 要 查找 的 指定 函数 及 其 参数 的 信息 。 如 下 命令 是 一 个 快捷 方 
式 ， 可 得 到 完全 相同 的 响应 : 


> ?sum 


请 注意 ，R 是 区 分 大 小 写 的 ， 所 以 “help” 和 “Help” 是 不 同 的 ! 然而 ， 空 格 无 关 紧 要 ， 
因此 上 面 的 命令 也 可 写 为 : 














> ? sum 


有 时 ， 国 数 中 只 有 一 个 参数 ， 比 如 sqrt() 的 示例 。 其 他 情况 下 ， 一 个 国 数 作用 于 一 组 数 
字 ， 称 为 向 量 ， 如 下 所 示 : 

> sum(3,2,1,4) 

[1] 10 
本 例 使 用 sum() 函数 计算 3、2、1、4 的 和 。 但 不 可 能 总 是 像 这 个 例子 一 样 ， 把 所 有 的 值 写 
入 函数 表达 式 。 因 此 ， 通 常 需要 先 创建 向 量 ， 如 下 所 示 : 


> x1 <- c(1,2,3,4) 


输入 这 个 命令 后 ， 什 么 也 没 发 生 ! 你 确实 看 到 什么 也 没有 发 生 。 一 旦 出 现 由 “<” 和 “-” 
两 个 符号 组 成 的 特殊 操作 符 ， 操 作 符 右 边 的 值 就 会 赋 给 左边 的 变量 。(R 的 较 新 版 本 允许 
使 用 “=” 号 来 完成 赋值 。 第 1 章 以 后 ， 我 们 也 将 使 用 这 种 较 简 单 的 形式 。) 在 这 种 情况 下 ， 
创建 一 个 新 的 向 量 ， 用 户 称 其 为 x1。R 是 一 种 面向 对 象 语言 (object-oriented language), 
向 量 x1 是 工作 区 中 的 一 个 对 象 (object)。 





























什么 是 “对 象 ” 

将 对 象 想象 为 一 个 盒子 ， 其 中 装 满 了 彼此 关联 的 项 。 这 些 项 可 以 是 简单 的 数字 、 名 称 、 
统计 分 析 的 结果 、 这 些 项 或 其 他 项 的 组 合 。 对 象 有 助 于 以 结构 化 的 方式 组 织 事物 ， 将 
彼此 相关 的 东西 封装 在 同一 个 金子 里 ， 无 关 的 东西 封装 在 其 他 金子 里 ; 对 象 可 以 告诉 有 
在 其 中 有 哪些 项 ， 以 便民 合理 地 操作 特定 对 象 中 的 项 。 向 量 是 一 类 包含 相同 类 型 数据 
(都 是 数字 或 者 部 是 字母 ) 的 对 象 。 对 象 可 以 包含 其 他 对 象 。 毕 竟 ， 你 可 以 把 一 个 金子 
放 入 一 个 更 大 的 盒子 里 。 因 此 ， 可 以 把 一 个 或 多 个 向 量 放 入 一 个 数据 框 (data frame), 
数据 框 是 另 一 种 类 型 的 对 象 。 输 入 命令 ls()， 可 以 查看 当前 工作 区 有 哪些 对 象 。 
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创建 一 个 新 的 向 量 ， 需 要 在 向 量 数据 的 括号 前 输入 字母 “c”。 创 建 后 输入 以 下 命令 看 看 会 
REA: 





> xl 





已 经 用 xl 为 名 保存 了 一 组 数字 1、2、3、4。 输 入 向 量 的 名 字 就 可 打印 出 x1 的 值 。 你 可 以 
随时 请 求 R 对 该 向 量 执行 各 种 操作 。 例 如 ， 输 入 如 下 命令 : 








> mean(x1) 


将 返回 (return) 向 量 x1 中 数字 的 均值 ， 打 印 到 屏幕 上 。 利 用 表 1 - 2 中 的 其 他 运算 符 可 以 
TRER 可 以 做 的 其 他 事情 。 

















创建 另 一 个 对 象 ， 这 次 创建 仅 有 一 个 数字 的 对 象 ; 





> pt <- 3.14 
任何 时 候 想 获得 当前 工作 区 中 所 有 对 象 的 列表 ， 可 使 用 如 下 命令 : 
> ls() 


并 且 ， 在 新 的 计算 中 可 以 使 用 任何 一 个 或 所 有 对 象 : 











> newvar <- pi*x1 


这 样 就 又 定义 了 一 个 名 为 newvar 的 对 象 。 


13 ”用户 界面 


目前 为 止 看 到 的 示例 都 是 命令 行 指令 (command-line instruction) ， 也 就 是 说 直接 输入 
命令 告诉 R 做 什么 。 这 不 是 与 R 交互 的 唯一 方法 ，R 的 基础 安装 也 具备 图 形 用 户 界面 
(graphical user interface, GUI) 功能 。GUI 指 的 是 点 击 式 的 图 形 界面 ， 你 很 可 能 已 在 其 他 
应 用 程序 中 见 过 。 但 问题 是 ， 安 装 的 每 类 操作 系统 Windows, OS X 和 Linux 的 
GUI 功能 是 存在 差别 的 。 相 比 其 他 系统 ，OS X 的 GUI 更 友好 一 点 ， 也 许 你 很 快 就 能 知道 ， 
也 更 喜欢 以 这 种 方式 发 出 很 多 命令 。 无 论 使 用 哪 款 操作 系统 ， 控 制 台 窗口 的 顶部 均 有 一 个 
菜单 。 在 输入 重要 的 数据 之 前 ， 可 以 简单 试 一 下 ， 看 看 有 哪些 点 击 式 操 作 可 用 。 


由 于 三 种 操作 系统 (Windows, OS X 和 Linux) 的 RR 命令 行 界面 是 相同 的 ， 因 而 本 书 使 用 
命令 行 界面 (command line interface)。 这 样 只 需 一 种 解释 ， 你 就 可 以 轻松 地 从 一 台 计 算 机 
转移 到 另 一 台 。 列 举 代码 (code)， 即 一 系列 命令 行 ， 比 试图 解释 每 一 个 选择 按钮 和 鼠标 点 
击 要 容易 得 多 。 此 外 ， 使 用 命令 行 学 习 R， 有 助 于 你 更 好 地 理解 软件 的 逻辑 。 最 后 ， 命 令 
语言 比 界面 点 击 更 精确 ， 并 能 给 予 用 户 更 强 的 操控 力 。 
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14 ZRB: GUAM 


无 论 你 使 用 的 是 什么 操作 系统 ， 都 可 以 下 载 一 个 免费 的 “前 端 ”(frontend) 程序 ， 它 将 提 
供 一 个 GUI。 有 几 个 可 用 的 “前 端 ” 程 序 。 在 对 R 有 了 更 多 的 了 解 ， 并 欣赏 了 其 强大 的 
用 途 之 后 ， 你 可 能 就 会 尝试 一 个 GUI 接口 了 。 例 如 ， 早 些 时 候 我 提 到 有 大 量 包 可 用 ， 你 
可 以 将 其 添加 到 R， 基 中 一 个 设计 不 错 的 GUI 名 为 R Commander。 在 联网 的 情况 下 ， 用 
下 面 的 命令 : 

















> install.packages("Rcmdr", dependencies=TRUE) 











RZ PRT MR Commander 正常 运行 所 依赖 的 其 他 包 。 包 将 永久 保存 在 你 的 计 
算 机 上 ， 所 以 不 需要 再 重新 安装 。 每 次 要 使 用 R Commander， 都 需要 按 如 下 方式 加 载 
(load) 包 : 





> library(Rcmdr) 


每 个 人 的 喜好 不 同 。 有 些 人 认为 命令 语言 很 好 ， 另 一 些 人 则 不 喜欢 R 的 命令 行 界面 ， 觉 得 
正 是 R Commander 使 R 成 为 他 们 最 喜欢 的 计算 机 工具 。 使 用 R Commander 能 生成 本 书 中 的 
许多 图 ， 但 不 能 生成 所 有 的 图 。 如 果 你 想 尝 试 R Commander， 可 在 附录 C 中 找到 更 多 信息 。 


检索 所 有 可 用 的 包 ， 可 使 用 如 下 命令 : 

















> available.packages() 


在 CRAN 任务 视图 中 ， 你 可 以 学 到 更 多 关于 这 些 包 的 主题 ， 地 址 为 : http://cran.r-project. 


org/web/views/。 








访问 http://cran.r-project.org/web/packages/available_packages_by_name.html， 可 以 看 到 所 有 
按 包 名 排列 的 包 的 列表 。 


获得 刚刚 下 载 的 包 的 帮助 ， 可 输入 以 下 命令 : 


> library(help=Rcmdr) 





错误 信息 
当 输 入 一 个 错误 命令 时 ， 将 不 会 看 到 预期 的 结果 ， 而 是 看 到 一 条 错误 信息 ， 它 不 一 定 
能 提供 帮助 ! 附录 G 就 如 何 处 理 最 可 能 出 现 的 错误 类 型 提供 了 指导 。 


1.5 数据 结构 


你 可 以 把 数据 写 入 各 种 结构 的 对 象 。 我 们 已 经 使 用 过 向 量 这 一 类 型 的 结构 。 可 以 把 向 量 
看 作 一 维 的 一 行 元 素 或 一 列 元 素 。 向 量 可 以 包含 任意 多 的 元 素 ， 计 算 机 的 内 存 可 以 容纳 
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多 少 ， 向 量 就 可 容纳 多 少 。 向 量 中 的 元 素 类 型 可 以 是 数值 型 (numeric) ， 或 者 包含 字母 、 
数字 和 特殊 字符 的 字符 型 (character) ， 或 者 包含 TRUE (AL) BK FALSE ( 假 ) 值 的 逻辑 型 
(logical) 。 向 量 的 所 有 元 素 必 须 是 相同 的 类 型 。 下 面 是 一 些 创建 向 量 的 例子 : 

> x <- c(14,6,7,5.1,-8) # 数值 型 


> name <- c("Lou", "Mary", "Rhoda", "Ted") # 字符 型 /需要 引号 
> test <- c(TRUE, TRUE, TRUE, FALSE, TRUE) # 逻辑 型 /需要 大 写 





符号 # 后 面 是 注释 ， 供 我 们 阅读 的 信息 或 广 意 事项 ， 但 R 会 忽视 这 些 注释 
(作为 一 名 音乐 家 ， 我 更 喜欢 称 这 个 符号 为 升 半音 号 ) 。 给 代码 写 注释 是 一 个 
好 习惯 ， 以 后 回头 再 看 代码 时 ， 这 有 助 于 你 想起 为 什么 做 某 一 件 事 ， 并 帮 你 
解决 问题 或 根据 一 个 好 主意 来 扩展 代码 。 阅 读本 书 中 R 示例 代码 的 注释 ， 也 
是 个 不 错 的 主意 。 











数据 框 (data frame) 是 我 们 将 使 用 的 主要 结构 。 它 是 一 个 二 维 的 对 象 ， 有 行 和 列 。 你 可 以 
把 它 视 为 其 中 有 列 向 量 的 盒子 ， 或 一 个 有 行 和 列 的 矩形 数据 集 (rectangular dataset) 。 为 了 
更 好 地 理解 ， 参 见 下 一 布 的 样本 数据 集 及 把 二 氧化 碳 排放 数据 读 取 到 R 的 练习 。 数 据 框 可 
以 包含 所 有 相同 类 型 的 列 向 量 或 任何 类 型 的 组 合 。 

R 还 有 其 他 数据 结构 ， 比 如 矩阵、 数组 、 列 表 ， 这 里 不 做 讨论 。 

可 以 使 用 str() 方法 查看 给 定 对 象 的 结构 (structure) : 


> str(x) 
num [1:4] 14 6.7 5.1 -8 























> str(name) 
chr [1:4] "Lou" "Mary" "Rhoda" "Ted" 


> str(test) 
logi [1:5] TRUE TRUE TRUE FALSE TRUE 


1.6 样本 数据 集 
基础 R 包含 一 些 样本 数据 集 ， 这 将 有 助 于 我 们 通过 实例 去 了 解 图 形 工具 。 要 想 知 道 你 的 计 
算 机 上 有 哪些 可 用 数据 集 ， 可 输入 如 下 命令 查看 : 


> data() 














确保 空 括号 放 在 命令 之 后 ， 否 则 你 将 得 不 到 预期 的 结果 。 还 有 很 多 可 用 的 数据 集 。 几 乎 所 
有 附加 包 均 有 样本 数据 集 。 只 需 使 用 帮助 命令 ， 就 可 以 查看 基础 R 包 或 者 已 经 下 载 的 包 中 
特定 数据 集 的 描述 。 例 如 ， 要 获得 atrquality 数据 集 的 信息 一 一 简 介 、 来 源 、 参 考 文献 
等 ， 可 答 入 以 下 命令 : 





> ?airquality 
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通过 使 用 如 下 命令 ， 可 查看 数据 集中 前 6 组 观测 值 : 
> head(airquality) 


Ozone Solar.R Wind Temp Month Day 


1 41 190 7.4 67 5- ot 
2 36 118 8.0 72 5h 2 
3 12 149 12.6 74 > 3 
4 18 313 11.5 62 5 4 
5 NA NA 14.3 56 2 So 
6 28 NA 14.9 66 5- %6 





该 数据 集 是 个 数据 框 ， 有 153 行 数据 ， 每 行 代 表 了 一 天 中 空气 质量 的 测量 值 RA, RA 
阳 能 和 风力 等 )。head() 命令 默认 打印 出 变量 名 及 前 6 行 数据 ， 以 便 我 们 可 以 查看 数据 情 
况 。 若 要 查看 不 同行 数 的 数据 ， 比 如 25 行 ， 可 使 用 如 下 方式 : 











> head(airquality,25) 
若 要 查看 数据 集 的 最 后 4 行 数据 ， 可 输入 如 下 命令 : 
> tail(airquality,4) 


每 行 数据 有 行 号 和 6 个 变量 的 值 ， 这 些 值 是 一 天 的 测量 值 。 第 一 行 或 者 说 第 一 天 的 值 ， 有 
1、41、190、7.4、67、5、1。 第 一 个 变量 是 奥 氧 ， 前 6 天 的 值 为 41、36、12、18、NA、 
28。 这 是 一 个 关于 短 形 数据 集 或 者 平面 文件 (flat file) 的 例子 。 大 多 数 统计 分 析 程 序 需要 
这 种 格式 的 数据 。 


注意 ， 在 数据 集 的 数据 中 ， 你 可 能 会 看 到 NA, NA 是 标准 的 R 符 号 ， 表 示 “ 不 可 用 ”或 
“丢失 ”。 可 以 用 多 种 方式 处 理 这 些 值 ， 一 种 方式 是 删除 存在 一 个 或 多 个 缺失 值 的 行 ， 并 和 
其 他 所 有 行 做 计算 ， 另 一 种 方式 是 不 做 计算 ， 并 返回 一 条 错误 信息 。 一 些 程序 可 以 让 用 户 
此 定 使 用 哪 种 方式 。 也 可 以 为 缺失 值 插 补 (impute) ， 即 估 值 ， 并 在 计算 中 使 用 估 值 。 处 理 
缺失 值 是 一 个 复杂 且 有 争议 的 话题 ， 不 能 掉以轻心 。 关 于 如 何 处 理 R 的 缺失 值 ，Kabacoff 
(2011) 中 有 一 章 做 了 很 好 的 介绍 。 


有 两 种 访问 数据 的 方式 。 第 一 种 方法 是 使 用 attach() 命令 ， 输 入 一 些 带 变量 名 的 命令 ， 然 
后 输入 detach() 命令 如 下 例 所 示 : 











































































































> attach(airquality) 


> table (Temp) # 获得 Temp 值 的 数量 
> mean (Temp) # 寻找 Temp 的 均值 
> plot(Wind,Temp) # 绘制 Nind 和 Temp 的 散 点 医 














> detach(airquality) 
这 种 方法 的 优点 是 ， 如 果 要 执行 多 个 步骤 ， 没 有 必要 一 遍 又 一 遍地 输入 数据 集 名 。 第 二 种 
方法 是 用 数据 集 名 和 变量 名 的 组 合 ， 并 用 美元 符号 ($) 分 隔 ， 来 指定 任何 你 想 做 的 分 析 。 
例如 ， 如 果 想 执行 如 下 命令 : 























8 | 第 1 章 


> attach(airquality) 
> plot(Wind, Temp) 
> detach(airquality) 


就 可 以 执行 如 下 的 等 效 代码 : 
> plot(airquality$Wind,airquality$Temp) 


这 种 方法 的 优点 是 ， 如 果 连 续 请 求 多 个 数据 集 ， 就 不 用 使 用 多 个 attach 和 detach 语句 。 


1.7 工作 目录 


使 用 R 了 时， 经 常 需要 把 数据 从 文件 读 到 R， 或 者 将 R 数据 写 入 文件 。 例 如 ， 你 可 能 有 些 
数据 是 由 电子 表格 、SAS 和 SPSS 等 统计 软件 包 或 文本 编辑 器 创建 的 ， 想 要 用 及 分 析 。 或 
者 你 常会 创建 一 个 R 数据 集 ， 保 存 并 再 次 使 用 它 。 这 些 文件 必须 存储 在 计算 机 的 文件 结构 
中 。 对 于 每 个 读 写 操作 ， 可 以 指定 一 个 明确 (通常 很 长 ) 的 路 径 ， 指 向 包含 你 想 要 读 取 的 
数据 的 文件 或 你 想 要 写 入 数据 的 地 方 。 这 样 可 能 比较 麻烦 ， 因 此 R 有 工作 目录 (working 
directory) ， 即 文件 的 默认 位 置 。 换 句 话 说， 如果 不 告诉 R 在 哪里 找 某 个 特定 的 文件 ， 它 会 
默认 在 工作 目录 中 查找 。 同 样 ， 如 果 不 指定 保存 数据 的 位 置 ，R 将 自动 写 到 工作 目录 。 可 
以 用 如 下 命令 查看 当前 工作 目录 : 


















































TT 
































> getwd() 





假设 获得 的 返回 结果 如 下 (当然 实际 结果 是 完全 不 同 的 ) : 








[1] "/Users/yourname/Desktop/" 











若 不 指定 其 他 位 置 ，R 则 会 在 一 长 串 名 称 的 最 后 一 个 文件 夹 〈 即 右边 最 后 一 个 名 字 ) 查找 
文件 和 写 和 文件。 使 用 setwd() 命令 ， 可 以 改变 工作 目录 。 为 使 用 R， 或 者 专门 为 了 本 书 
的 练习 ， 你 可 能 想 创建 一 个 新 文件 来， 其 名 字 要 清楚 表明 目的 ， 如 R folder 或 R graphical 
data。 假 设 你 已 经 在 Desktop 目录 内 创建 了 一 个 名 为 things 的 文件 夹 ， 可 以 输入 以 下 命 


























> setwd("/Users/yourname/Desktop/R things") 





这 样 ，R 将 把 R things 目录 作为 你 的 工作 目录 ， 直 到 下 次 使 用 setwd() 命令 ， 或 输入 qO (quit) 
关闭 R。 如 果 不 想 每 次 启动 R 时 都 设置 工作 目录 ， 在 19 节 中 学 习 如 何 实现 这 一 点 。 


1.8 将 数据 导入 R 
现在 ， 你 已 经 知道 怎么 使 用 各 种 R 包 的 样 例 数据 集 了 。 这 是 学 习 使 用 R 的 丰富 资源 ， 但 
是 ， 你 学 习 R 是 因为 想 对 自己 的 数据 做 图 形 分 析 。 选 择 哪 种 方法 把 数据 导入 R， 取 决 于 以 
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下 几 个 因素 : 


。 数据 集 有 多 大 
。 数据 是 否 已 经 以 某 种 数据 文件 的 形式 存在 
。 使 用 R 之 外 的 其 他 工具 的 舒适 度 
。 你 得 在 数据 输入 上 投入 多 少时 间 
自身 的 痛苦 国 值 























初学 者 注意 
接 下 来 三 节 展 示 了 多 种 输入 数据 的 方法 。 如 果 你 是 一 个 初学 者 ， 觉 得 这 几 节 内 容 太 
难 ， 可 以 先 读 1.8.1 节 ， 然 后 尝试 解决 一 个 简单 的 输入 数据 的 问题 ， 如 本 章 最 后 的 练习 
1-4; 稍 后 再 返回 到 “使 用 数据 编辑 器 ”(1.8.2 节 ) 和 “从 外 部 文件 读 取 ”(1.8.3 节 )。 
事实 上 ， 做 完 练习 1-4 之 后 ， 可 以 直接 进入 第 3 章 ， 然 后 当 需 要 相关 信息 时 ， 再 开始 
阅读 1.8.2 节 ， 直 到 读 完 第 2 章 。 


























如 果 你 对 数据 输入 不 是 特别 感 兴趣 ， 而 是 希望 使 用 已 经 创建 好 的 数据 集 ， 比 如 电子 表格 、 
统计 软件 包 数 据 集 、ASCI 文件 或 其 他 类 型 的 数据 文件 ， 可 以 略 过 本 市 余下 部 分 ， 直 接 参 
考 附 录 玉 来 查阅 你 感 兴趣 的 数据 文件 类 型 。 














1.8.1 命令 行 输入 
将 数据 输入 R 的 最 直接 的 方法 ， 是 从 命令 行 输入 表达 式 ， 如 前 文 操作 过 的 一 一 创建 向 量 。 
如 果 你 需要 的 是 分 析 一 个 或 几 个 特别 短 的 向 量 ， 这 种 方法 最 简单 。 








练习 1-1 

Backblaze 是 一 家 数据 备份 公司 ， 运 行 着 大 约 25 000 个 磁盘 驱动 器 并 报告 硬盘 存活 率 ( 单 
位 为 %)。 下 列 数据 显示 了 驱动 器 的 年 度 存 活 率 (数据 来 源 于 https://www.backblaze.com/ 
blog/how-long-do-disk-drives-lasV) : 





























year rate 

1 94 # (比如 ,一 年 之 后 ,94% 的 驱动 仍 在 工作 ) 
2 92 

3 90 

4 80 


使 用 如 下 命令 创建 两 个 向 量 : 


> year <- c(1,2,3,4) 
> rate <- c(94,92,90,80) 

















确保 以 正确 的 顺序 输入 数字 。 例 如 ， 如 果 1 是 year 向 量 的 第 一 个 值 ， 那 么 94 必须 是 rate 
向 量 的 第 一 个 值 ， 以 此 类 推 。 可 使 用 下 面 这 个 命令 分 析 这 两 个 向 量 之 间 的 关系 : 
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> plot(year,rate) 

















大 多 数 图 形 命 令 会 打开 一 个 新 窗口 。 如 果 你 开启 多 个 应 用 程序 ， 可 能 会 丢失 当前 的 命令 并 
被 迫 去 寻找 它 。 





上 面 代码 片段 中 的 plot 语句 调用 plot() 函数 ， 令 其 对 year 和 rate 两 个 参数 进行 分 析 。 
刚刚 绘制 的 是 一 个 简单 的 图 表 ， 但 用 R 也 可 制作 非常 复杂 精美 的 图 表 。 图 1-1 中 的 右 图 展 
示 了 一 些 自 定义 基础 图 的 方法 。 在 本 书 中 我 们 将 介绍 许多 这 样 的 选项 。 输 入 ?plot 命令 ， 
查看 可 用 的 选项 列表 。 






































磁盘 驱动 器 的 存活 情况 
a 100 
S 
80 `a 
O Ka 
i R 
3 9 c 60 
i E 
t © EN 
00 a 40 
st 8 
Co 
= 20 
oo 
品 0 
1 2 3 4 
使 用 年 数 使 用 年 数 

















B11: 左 图 表示 磁盘 驱动 器 存活 率 与 使 用 年 数 ， 是 由 简单 的 命令 pLot (year,rate) 生成 的 。 右 图 是 
自 定义 的 ， 需 要 很 多 的 选择 。 你 发 现 了 多 少 差异 ? 


可 以 把 year 和 rate 两 个 向 量 合并 到 一 个 新 的 数据 框 mydata， 如 下 所 示 : 


> mydata <- data.frame(year, rate) 


1.8.2 ”使 用 数据 编辑 器 

如 果 数 据 只 是 稍微 复杂 或 者 数据 量 稍 大 ， 可 以 使 用 R 控制 台中 简单 的 数据 编辑 器 。 即 使 不 
使 用 这 种 方式 录入 数据 ， 了 解 一 下 编辑 器 也 不 错 ， 因 为 有 朝 一 日 你 可 能 需要 解决 R 工作 区 
中 的 临时 间 题 数据 点 。 我 认为 ， 对 大 多 数 人 来 说 ， 努 力 尝试 使 用 数据 编辑 器 输入 数据 是 不 
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必要 的 。 阅 读本 闻 了 解 一 些 术语 ， 并 看 一 下 如 何 保存 文件 即 可 。 你 可 能 更 愿意 使 用 最 喜欢 
的 电子 表格 来 录入 数据 ， 但 是 如 果 没 有 电子 表格 ， 可 能 就 需要 使 用 编辑 器 。 阅 读 1.8.3 市 
来 了 解 如 何 从 电子 表格 读 取 数据 到 Ro 


练习 1-2 
K 1-3 中 给 出 的 数据 (来 自 美 国 能 源 信息 管理 局 ) 是 近 8 年 间 全 球 二 氧化 碳 的 排放 量 。 你 
将 使 用 RR 内 置 的 数据 编辑 器 将 它 输 入 R。 先 来 看 看 这 个 数据 集 的 内 容 。 


表 1-3: 按 世界 地 区 划分 ， 从 能 源 使 用 角度 的 二 氧化 碳 人 均 排 放量 (以 人 均 二 氧化 碳 吨 数 计 ) 






























































年 份 ” 北美 中 南美 欧洲 欧 亚 大 陆 中 东 非洲 亚洲 /大 洋 洲 
2004 16.2 2.4 7.9 8.5 7.1 1.1 2.7 
2005 16.2 2.5 7.9 8.5 7.6 1.2 2.9 
2006 15.9 2.5 7.9 8.7 77 isj 3.1 
2007 15.9 2.6 7.8 8.6 7.6 1.1 3.2 
2008 15.4 2.6 77 8.9 7.9 1.2 3.3 
2009 14.2 2.6 71 8 8.3 1.1 3.5 
2010 14.5 2.7 7.2 8.4 8.4 Ll 3.6 


(来 源 : http://1.usa.gov/1R6sj99 ) 


K 1-3 中 第 一 行 是 标题 (header) 信息 ， 命 名 记录 的 每 个 变量 。 每 行 包含 一 年 中 收集 到 的 
所 有 信息 。 每 一 行 被 称 为 一 个 统计 单元 (statistical unit)。 社 会 学 家 通常 把 一 行 称 作 一 个 实 
例 (case)， 而 自然 科学 家 的 一 行 很 多 时 候 指 的 是 观测 (observation)。 计 算 机 专业 人 十 通常 
把 一 行 称 为 一 条 记录 (record) 。 每 一 列 为 一 个 变量 ， 在 计算 机 科学 中 为 一 个 字段 (field), 
排放 数据 集 有 7 行 (观测 值 )， 共 8 个 变量 : 年 份 及 所 研究 的 7 个 地 区 各 自 的 排放 总 量 。 


编辑 器 看 起 来 像 电 子 表格 ， 并 拥有 一 些 良好 的 电子 表格 的 特性 ， 但 不 如 Excel 或 Numbers 
使 用 方便 ， 而 且 一 不 小 心 很 容易 丢失 变更 信息 。 一 开始 ， 需 要 选择 对 象 名 称 ， 用 该 名 称 定 
义 一 个 新 的 数据 框 。 实 现 这 一 点 有 几 种 方法 。 我 觉得 最 安全 的 方法 是 为 每 个 变量 命名 、 确 
定 其 类 型 并 指定 行 数 。 代 码 如 下 : 


























> emissions <- data.frame(Year=numeric(7),N_Amer = numeric(7), 
CS_Amer=numeric(7), Europe=numeric(7),Eurasia=numeric(7), 
Mid_East=numeric(7) ,Africa=numeric(7), Asia_Oceania=numeric(7)) 


以 上 代码 创建 了 一 个 名 为 emissions 的 空 数 据 框 。 调 用 edit() 国 数 ， 指 定 一 个 对 象 来 保存 
空 数 据 框 ， 这 样 就 打开 了 编辑 器 ， 命 令 如 下 : 








> emissions <- edit(emissions) 
请 记 住 ，emissions 是 空 的。 通过 调用 前 面 命令 中 的 emissions 对 象 ， 告 诉 R 用 你 输入 的 
任何 编辑 过 的 数据 覆盖 空 数据 框 。 双 击 你 想 输入 / 编辑 数据 的 单元 格 ， 输 入 数据 。 完 成 编 
辑 后， 在 OS X 系统 中 点 击 电子 表格 左上 角 或 在 Windows 系统 中 点 击 右上 角 的 “X”。 不 要 
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点 击 Stop, OS X 系统 中 的 Stop 在 编辑 窗口 ，Windows 系统 的 Stop 在 屏幕 的 顶部 。 一 旦 
点 击 Stop， 将 丢失 所 做 的 全 部 修改 。 输 入 数据 后 ， 仔 细 检 查 以 确保 没有 错误 。 如 果 发 现 错 
误 ， 就 双击 想 要 修改 的 单元 格 ， 然 后 输入 正确 的 数据 。 如 果 有 必要 的 话 ， 可 以 使 用 前 面 的 
命令 再 次 回 到 编辑 器 来 修改 。 为 了 以 后 不 需要 重新 输入 ， 就 可 以 再 次 使 用 数据 杠 ， 可 使 用 
下 面 的 命令 保存 这 个 数据 框 : 





















































> save (emissions,file="emiss.rda") 





这 行 命令 把 emissions 数据 框 写 入 工作 目录 中 的 emiss.rda 文件 。 假 设 你 仍 在 同一 工作 目录 
中 ， 可 以 使 用 以 下 命令 读 取 数据 : 





> load("emiss.rda") 


1.8.3 ”从 外 部 文件 读 取 


你 可 能 已 经 有 一 个 最 喜欢 的 输入 数据 的 工具 了 ， 对 许多 人 来 说 ， 这 个 工具 可 以 是 电子 表格 
程序 ， 也 可 以 是 文本 编辑 器 。 我 喜欢 Mac 上 的 Numbers， 当 然 Excel 或 者 其 他 电子 表格 也 
不 错 。 通 常 的 做 法 是 ， 在 电子 表格 程序 中 创建 文件 ， 并 将 其 保存 到 工作 目录 。 文 件 存在 工 
作 目 录 以 后 ， 就 可 以 将 其 读 取 到 R 并 进行 分 析 。 











练习 1-3 

多 产 的 英国 作曲 家 爱德华 . 埃 尔 加 (1857 一 1934) 有 两 个 (也许 是 ) 最 著名 的 作品 : 一 个 
是 Pomp and Circumstance (《 威 风 堂 堂 进 行 曲 》)， 它 是 无 数 毕 业 典 礼 上 播放 的 进行 曲 ， 另 
一 个 是 交响 乐 Enigma Variations (《 谜 语 变奏 曲 》))。 虽 然 完整 的 Enigma Variations 是 交响 乐 
演出 中 受 欢 迎 的 部 分 ， 但 非常 优美 的 第 9 首 Nimrod 变奏 曲 通常 单独 滨 秦 ， 不 仅 由 管弦 乐 
队 ， 还 由 其 他 的 合奏 者 (音乐 团体 ) 或 独奏 者 演奏 。 


在 演奏 音乐 作品 之 前 ， 一定 要 问 的 一 个 最 基本 的 问题 是 :“ 节 奏 应 该 是 什么 样 的 ? ” 换 句 
话说 :“ 应 该 以 多 快 的 速度 演奏 ? ”虽然 作曲 家 通常 会 给 出 指示 ,但 是 一 些 作品 已 经 得 到 
了 广泛 的 解释 ， 其 至 在 最 德高望重 的 音乐 家 之 中 ， 解 释 也 不 一 样 。 学 习 其 他 音乐 家 如 何 演 
奏 这 一 作品 ， 对 策划 个 人 表演 是 很 有 指导 意义 的 。 表 1-4 中 呈现 的 Nimrod 节拍 数据 来 自 
很 多 表演 记录 ， 我 是 2013 年 11 月 9 日 在 YouTube 上 找到 的 这 些 表演 。 


表 1-4: 不 同 团体 演奏 Nimrod 的 时 间 




































































表演 者 媒介 时 间 水 准 
Barenboim-Chicago SO SO 240 p 
Solti-London Phil so 204 p 
Davis so 270 p 
Remembrance2009 cb 236 p 
Belcher org 254 p 
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表演 者 媒介 时 间 水 准 
Bish org 232 p 
ColdstrGuards cb 239 p 
Pallhuber-3 Lions BB bb 257 a 
Bernstein-BBC so 315 p 
Dudamel-SBolivarSym so 239 p 
John org 252 p 
Sunshine Brass bb 186 a 
Mahidol Sym Band cb 173 a 
Hills org 240 p 
Grimethorpe CollB bb 200 p 
Barbirolli_Halle O so 200 p 
Stokowski so 244 p 
Boult-London SO so 211 p 
Kindl-Marktoberdorfer BB bb 238 a 
Carter-Charlotte CB cb 196 a 
Cord-IndianaU bb 188 a 
Mack-SUNYFredonia CB cb 160 a 
U Akron CB cb 193 a 
Akron Youth Sym so 188 a 
BP-Ostwestfalen cb 198 a 
Santarsola-MoldovaPO so 320 p 
Klumpp_NWD PO so 187 p 
Burke-Mancunian Winds cb 257 a 
US Army Field Band cb 235 p 
EE-Phonograph so 186 p 
Niemczyk-NWC O so 169 a 
Allentoff-Brockport SO so 200 a 


Nimrod 数据 集 有 32 行 〈 实 例 /观测 值 ) 和 4 列 (变量 )。 此 数据 将 成 为 R Bet 


Nimrod 码 本 


除了 最 简单 的 数据 集 外 ， 所 有 数据 集 都 需要 一 个 “ 码 本 ”， 它 解 


Nimrod 数据 集 的 码 本 如 下 : 


performer (表演 者 ) 
若 有 ， 为 指挥 和 乐 





Zi 

















的 名 字 。 必 须 至 少 纳入 一 个 可 用 的 名 字 以 供 研究 。 




















medium (媒介 ) 
bb 铜 管 乐 队 (brass band) 
cb 管 乐 队 (concert band) 
org 管风琴 独奏 (organ solo) 
so 交响 乐团 (symphony orchestra) 


time (时 间 ) 


从 第 一 个 音符 到 最 后 一 个 音符 的 表演 时 间 ， 以 秒 为 单位 ， 去 掉 预 告 、 调 音 、 鼓 掌 等 时 
间 。 可 替代 的 测量 节奏 的 办 法 ， 即 假定 自始至终 节奏 相同 。 








level/proficiency level of the performers (水 平 / 表 演 者 的 水 平 ) 
a 业余 (或 学 生 ) 
p 专业 


time 变量 是 一 个 定量 交 量 (quantitative variable) ; 也 就 是 说 ， 它 是 总 数 的 度量 。 算 术 中 
可 以 使 用 定量 变量 ， 所 以 可 以 计算 time 变量 的 总 和 或 平均 值 。 这 些 是 R 的 数值 向 量 ， 正 
如 1.5 节 讨 论 的 那样 。 这 个 数据 集中 的 其 他 变量 都 是 分 类 变量 (categorical variable), Bil 
分 成 类 的 观测 值 。 有 些 人 将 分 类 变量 称 为 定性 (qualitative) 或 名 义 (nominal) 变量 。 这 
些 是 R 的 字符 向 量 。 由 于 bb、cb 等 不 是 数字 ， 所 以 我 们 不 能 计算 medium 的 平均 值 ， 计 算 
甚至 没有 意义 。 但 是 ， 关 于 分 类 变量 ， 有 一 些 事情 我 们 可 以 做 ， 比 如 找 出 bb 或 cb 的 频率 
(frequency) 。 我 们 也 可 以 使 用 分 类 变量 的 值 来 分 组 。 例 如 ， 根 据 Level 变量 的 值 把 数据 集 
分 成 很 多 部 分 ， 从 而 比较 业余 组 和 专业 组 的 平均 时 间 。 


可 以 用 下 列 方式 中 的 任意 一 种 来 输入 数据 : 


。 把 数据 输入 到 你 最 喜欢 的 电子 表格 程序 中 ， 并 以 .csy 文件 格式 将 电子 表格 保存 (导出) 
到 你 的 工作 目录 ， 命 名 为 Nimrod.Tempo.csv。R 可 以 读 其 他 文件 类 型 ， 但 .csv 格式 文件 
最 简单 ， 也 最 不 容易 出 错 。 然 后 打开 R 并 输入 如 下 命令 : 


> Nimrod <- read.csv("Nimrod.Tempo.csv",header=TRUE) 


















































若 要 读 取 没有 标题 的 文件 ， 则 使 用 header=FALSE。 

















。 如 果 想 读 取 Excel 文件 而 不 将 其 转换 为 .csv 文件 ， 有 一 个 名 为 XLConnect 的 包 可 用 。 
Xlconnect 可 以 执行 很 多 其 他 任务 ， 如 编辑 电子 表格 ， 以 及 把 R 数据 写 到 Excel 文件 。 
如 果 你 用 的 是 旧版 本 的 R (3.0 之 前 的 版 本 )， 那 么 无 法 使 用 这 个 包 。 下 面 的 代码 演示 了 
当 Nimrod 数据 被 保存 为 Excel 文件 格式 并 以 Nimrod.xls 命名 时 ， 如 何 读 取 Nimrod 数据 : 











>install.packages ("XLConnect") 

>library (XLConnect) 

>Nimrod2 <-readWorksheetFromFile("Nimrod.xls", 
sheet = 1, header = TRUE) 
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如 果 命 令 的 长 度 超过 一 行 怎么 办 
如 果 需 要 执行 的 命令 太 长 (如 上 例 中 的 命令 ) ， 以 至 于 超出 了 控制 台中 的 一 行 ， 只 需 
继续 输入 ，R 会 自动 将 其 余 的 文本 放 在 下 一 行 。 输 入 完 命令 之 前 ， 不 要 按 Return 或 
Enter 键 。 如 果 在 输 完 命令 前 按 Return 键 ，R 不 明白 你 的 请 求 ， 可 能 会 返回 一 个 含糊 
的 错误 信息 。 








实际 上 ， 不 需要 在 计算 机 上 安装 Excel 来 使 用 这 个 软件 包 。 有 许多 数据 集 可 以 从 政府 机 
构 和 其 他 各 种 来 源 自 由 获取 ， 你 可 以 下 载 Excel 格式 的 。 关 于 这 个 主题 的 更 多 信息 ， 请 
参见 附录 玉 。 通 过 Xlconnect， 可 以 复制 这 些 文件 并 读 取 到 R， 用 于 自己 的 数据 分 析 。 
这 个 包 可 以 读 或 写 .xls 或 较 新 的 xlsx 格式 。 访 问 http://cran.r-project.org/web/packages/ 
XLConnect/XLConnect.pdf， 可 以 找到 完整 的 文档 。 

















。 使 用 文档 编辑 器 或 者 文字 处 理 器 创建 名 为 Nimrod.Tempo.txt 的 文本 文件 ， 使 用 空格 作为 
值 与 值 之 间 的 分 隔 符 。 文 件 可 以 如 下 方式 读 取 : 
> Nimrod <-read.table("Nimrod.Tempo.txt", sep = 
header=TRUE) 
如 果 前 面 讨论 的 把 数据 放 到 R 中 的 方法 都 不 适用 于 你 所 处 的 情况 ， 请 咨询 R 帮助 文件 中 的 
“R 数据 导入 / 导出” 部分。 在 “R 帮助 ”中 包含 该 文件 ，“R 帮助 ”是 基础 安装 的 一 部 分 。 
使 用 上 述 任何 一 种 方法 读 取 数据 到 R 之 后 ， 使 用 下 列 方法 之 一 查看 并 确认 是 否 起 作用 : 
































> Nimrod # 打印 出 整个 数据 集 


> head(Nimrod) # 打印 出 前 6 行 





> fix(Nimrod) # 在 编辑 器 中 打开 Nimrod 数 据 





最 后 一 种 方式 将 打开 编辑 器 (IUE 1-2)， 让 你 在 必要 时 检查 数据 或 改变 数据 的 值 。 








你 也 可 以 给 出 命令 ， 以 多 种 方式 分 析 数 据 ， 如 下 所 示 : 


> mean(NimrodStime) 

[1] 222.0938 

> table(Nimrod$medium) # 获取 每 个 medium 的 数量 
bb cb org so 
5 9 4 14 





还 可 以 创建 一 些 酷 酷 的 图 表 ， 在 适当 的 时 候 我 们 会 学 到 这 些 图 表 。 
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m 
= = = @ 


iii 


0 





performer medium time level 

Barenboim-ChicagoSO so 240 p 
Solti-London Phil so 204 p 
Davis so 270 p 
Rembrance2009 cb 236 p 
Belcher org 254 p 
Bish org 232 p 
ColdstrGuards cb 239 p 
Pallhuber-3 Lions BB bb 257 a 
Bernstein-BBC so 315 p 
Dudamel-SBolivarSym so 239 p 
John org 252 p 
Sunshine Brass bb 186 a 
Mahidol Sym Band cb 173 a 
Hills org 240 p 
Grimethorpe CollB bb 200 p 
Barbirolli_Halle O so 200 p 
Stokowski so 244 p 
Boult-London SO so 211 p 
Kindl-Marktoberdorfer BB bb 238 a 
Carter-Charlotte CB cb 196 a 
Cord-IndianaU bb 188 a 
Mack-SUNYFredonia CB cb 160 a 
U Akron CB cb 193 a 
Akron Youth Sym so 188 a 
BP-Ostwestfalen cb 198 a 
Santarsola-MoldovaPO so 320 p 
Klumpp_NWD PO so 187 p 

a 


Burke-MancunianWinds cb 257 





»{ 














图 1-2: R 数据 编辑 器 中 的 Nimrod 数据 。 可 以 使 用 该 编辑 器 查看 数据 和 改变 特定 的 值 


你 可 以 请 求 R 以 便 获 得 关于 Nimrod 数据 集 的 一 些 一 般 信息 : 


> summary(Nimrod) 


performer medium time level 
Akron Youth Sym sr bb : 5 Min. :160.0 a:13 
Allentoff-Brockport SO: 1 cb : 9 1st Qu.:191.8 p:19 
Barbirolli_Halle 0 1 org: 4 Median :221.5 
Barenboim-ChicagoSO :1 so :14 Mean 2222.1 
Belcher $01 3rd Qu.:241.0 
Bernstein-BBC :1 Max. :320.0 
(Other) :26 


使 用 与 保存 emissions 数据 集 一 样 的 方式 保存 Nimrod 数据 框 (当然 
因为 在 后 面 的 练习 中 需要 重新 检索 并 获取 这 个 数据 框 。 命 令 如 下 : 




















> save (Nimrod, file="Nimrod.rda") 


使 用 load() 命令 可 以 重新 加 载 ， 如 下 所 示 : 


> load("Nimrod.rda") 








关于 如 何 读 取 和 导入 外 部 文件 ， 详 见 附录 E。 


要 用 不 同 的 文件 名 )， 
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1.9 获取 脚本 


到 目前 为 止 ， 我 们 已 经 输入 了 单行 命令 。 大 多 数 时 候 ， 运 行 恨 好 。 但 是 有 时 候 你 可 能 想 要 
执行 一 系列 命令 ， 并 重复 执行 整个 命令 序列 。 如 果 序 列 很 长 或 要 重复 很 多 次 ， 这 个 过 程 就 
会 变 得 很 乏味 。 幸 运 的 是 ，R 可 以 使 用 脚本 〈script) 。 脚 本 是 一 系列 命令 ， 按 你 想 要 执行 
的 顺序 排列 。 你 可 以 使 用 文本 编辑 器 创建 脚本 并 将 其 保存 到 文件 ， 然 后 获取 脚本 (source 
the script) ， 即 读 取 脚 本 并 执行 保存 的 命令 。 


下 面 来 看 一 下 具体 的 过 程 。 假 设 你 在 不 断 地 更 新 Nimrod 数据 ， 时 不 时 在 Excel 电子 表格 中 
添加 一 些 新 的 观测 数据 ， 并 且 想 用 R 做 一 些 分 析 ， 看 看 最 新 数据 的 情况 。 接 下 来 要 用 一 系 
列 命令 来 做 分 析 ， 这 需要 事先 安装 两 三 个 包 。 如 果 你 不 确定 计算 机 上 安装 了 哪些 包 ， 可 以 
使 用 如 下 命令 查找 : 
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> installed.packages() 


如 果 没 有 gmodels 和 XLConnect， 那 么 使 用 如 下 命令 进行 安装 : 


> install.packages("gmodels") 
> install.packages("XLConnect") 


现在 ， 你 可 以 使 用 如 下 的 一 系列 命令 来 实现 数据 分 析 。 请 注意 ， 当 使 用 命令 块 时 ， 通 常 不 
会 在 每 行 命令 前 加 R 提示 符 (>): 


# 下 面 一 组 命令 是 一 个 脚本 
library(gmodels) # 需要 使 用 CrossTabLe 命 令 
Library (XLConnect) # 必须 已 经 安装 XLConnect 
Nimrod2 <- readWorksheetFromFile("Nimrod.xls",sheet=1, 
header=TRUE) 
attach(Nimrod2) 
CrossTable(medium, level, 
prop.r=FALSE, 
prop.c=FALSE, 
prop.t=FALSE, 
prop.chisq=FALSE) 
# [以 上 命令 打印 出 一 张 表 ,其 中 每 一 个 单元 格 都 有 计数 ， 
# 但 没有 百 分 号 
perf_time <- summary(time) # 保存 summary 的 输出 









































title = "Summary of performance times:" 
cat(title,"\n", "\n") # 打印 标题 和 两 个 空 行 
print(perf_time) # 打印 summary(time) 的 结果 
detach(Nimrod2) 











每 次 想 查 看 结果 时 ， 用 键盘 输入 这 些 相 同 的 命令 有 点 麻烦 ， 所 以 建议 你 使 用 编辑 器 创建 一 
个 文件 来 保存 上 面 的 命令 。R 提供 了 一 个 文本 编辑 器 。 在 大 多 数 R 的 版 本 中 ， 可 以 从 R 控 








注 1: 余下 的 许多 示例 代码 将 会 写成 脚本 , 在 每 一 行 的 开始 没有 提示 符 (>)。 此 外 , 为 便于 阅读 , 长 命令 (如 
这 个 例子 中 的 CrossTable() 命令 ) 往往 被 分 成 多 行 来 写 。 
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制 台 左上 角 的 “文件 ”(File) 菜单 中 访问 文本 编辑 器 。 选 择 “ 新 建文 档 ”(New Document) 
或 “新 建 脚本 ”(New Script) 来 打开 一 个 文本 窗口 ， 并 输入 命令 。 在 工作 目录 中 保存 编辑 
好 的 脚本 ， 本 例 中 命名 为 NimTotals.R。 然 后 ， 使 用 以 下 命令 执行 文件 中 的 所 有 命令 : 

















> source("NimTotals.R") 


Cell Contents 


Total Observations in Table: 32 


| level 
medium | a | p | Row Total | 
ee | 
bb | 4 | 1 | 5 | 
ee | 
cb | 6 | 3 | 9 | 
ee | 
org | 9 | 4 | 4 | 
ee | 
so | 3 | 11 | 14 | 
- | 
Column Total | 13 | 19 | 32 | 
i | 
Summary of performance times : 
Min. 1st Qu. Median Mean 3rd Qu. Max. 
160.0 191.8 221.5 222.1 241.0 320.0 


脚本 中 的 CrossTable() 命令 创建 了 一 个 列 联 表 (contingency table) 或 交叉 制 表 (cross 
tabulation)。 表 的 顶部 是 标题 行 ， 包括 变量 level 的 值 。 左 列 给 出 了 变量 medium 值 的 名 称 。 
标题 下 的 第 一 行 显示 了 “bb”( 铜 管 乐 队 ) 的 信息 。 有 四 个 铜 管 乐队 是 “a”( 业 余 团 体 ), 一 
个 是 “p” (专业 人 士 )。 右 列 和 底部 的 行为 各 行 或 各 列 的 总 数 。 例 如 ，Row Total 列 显示 各 种 
铜 管 乐 队 共 有 五 个 。 统 计 学 家 称 这 些 总 数 为 临界 值 (marginal value) 或 临界 (marginal). 























表 的 下 面 是 变量 time 的 概要 信息 一 一 表演 时 间 。 我 们 看 到 最 短 (minimum) 时 间 为 160 
秒 ， 最 长 (maximum) 时 间 为 320 秒 。 时 间 分 布 的 中 心 有 两 个 量 : 一 个 是 均值 (mean) 或 
者 平均 值 ， 即 用 所 有 数字 相 加 之 和 除 以 数字 的 总 个 数 ， 另 一 个 是 中 位 数 (median) ， 有 一 
半 的 数字 比 它 大 ， 一 半 的 数字 比 它 小 。 最 后 ， 有 第 一 个 四 分 位 数 (first quartile) 191.8〈 即 
高 于 四 分 之 一 的 数字 的 点 ) ， 以 及 第 三 个 四 分 位 数 (third quartile) 241 ( 即 高 于 四 分 之 三 的 
数字 的 点 )。 
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你 也 可 能 会 发 现 ， 编 写 一 个 包含 Library() 和 setwd() 命令 的 脚本 ， 可 以 方便 地 使 用 一 条 
命令 执行 许多 条 这 样 的 命令 ， 否 则 你 可 能 需要 单独 输入 这 些 命 令 。 如 果 你 已 经 下 载 了 几 个 
经 常 使 用 的 包 ， 最 好 一 次 性 加 载 所 有 的 包 ， 而 不 是 记 住 何 时 需要 哪个 包 。 虽 然 每 次 启动 R 
时 发 出 source) 命令 不 是 特别 不 方便 ， 但 有 些 人 更 喜欢 让 R 自动 获得 脚本 。 这 是 有 可 能 
的 ， 但 对 于 不 同 的 平台 ， 这 个 方法 有 点 不 同 。 在 OS X 操作 系统 中 ， 打 开 屏 幕 顶部 的 了 R 菜 
单 并 选择 “首选 项 ”(Preferences)， 可 以 指定 工作 目录 ， 以 便 每 次 启动 R 时 应 用 该 工作 目 
录 。 配 置 工作 目录 ， 以 便 通 过 拖 放 包 含 启动 时 将 要 获取 的 脚本 文件 来 启动 R。 在 Windows 
中 ， 需 要 找到 .Rprofile 或 Rprofile.site 文件 并 编辑 它 ， 使 之 包括 在 启动 时 要 执行 的 命令 。 
输入 以 下 命令 来 看 一 个 例子 : 


























> ?Startup 


1.10 用 户 自 定义 函数 

当 需 要 准确 地 重复 一 系列 命令 的 时 候 ， 获 取 脚 本 是 一 个 很 好 的 工具 。 然 而 ， 有 时 你 可 能 想 
重复 执行 一 些 程序 ， 但 不 总 是 用 相同 的 变量 或 相同 的 参数 。 如 果 你 想 使 用 上 一 节 所 创建 的 
脚本 ,但 不 总 用 在 同一 文件 中 ， 那 么 可 以 编写 自己 的 函数 来 选择 要 检索 和 分 析 的 文件 。 




















用 户 自 定义 函数 的 一 般 格 式 如 下 : 


name <- function (argument1, argument2,...){ 
commands 


} 


假设 你 把 自己 的 函数 命名 为 update， 让 它 绪 取 一 个 Excel 文件 ， 每 次 使 用 函数 时 都 要 命名 
该 文件 。 下 面 这 段 与 前 一 节 的 脚本 几乎 是 相同 的 代码 ， 可 以 完成 该 操作 。 参 数 fn 出 现在 
函数 语句 以 及 Nimrod2 的 语句 中 ， 表 明 当 R 执行 命令 时 ， 无 论 用 户 在 函数 调用 中 提供 什么 
样 的 参数 ， 都 将 在 Nimrod2 命令 中 被 取代 : 














# 用 户 自 定义 函数 , 且 命 名 为 update 
update <- function (fn){ 
library(gmodels) 
library (XLConnect) 
Nimrod2<-readWorksheetFromFile(fn, sheet=1,header=TRUE) 
attach(Nimrod2) 
CrossTable(medium, level, 
prop.r=FALSE, 
prop.c=FALSE, 
prop.t=FALSE, 
prop.chisq=FALSE) 

# 以 上 命令 打印 出 一 张 表 ,其 中 每 一 个 单元 格 都 有 计数 ,但 设 有 百 分 
perf_time = summary(time) # 保存 summary 的 输出 
title = "Summary of performance times:" 
cat(title,"\n", "\n") # 打印 标题 和 两 空 行 
print(perf_time) 














ul 
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detach(Nimrod2) 
} 


为 使 用 此 函数 ， 首 先 必须 如 保存 任意 R 脚本 那样 将 其 保存 ， 然 后 加 载 或 获取 它 。 在 准备 按 如 下 
方式 调用 函数 之 前 ， 可 以 发 出 任意 多 的 命令 ， 其 中 myfile.xls 是 你 要 分 析 的 Excel 文件 的 名 字 : 
>update("myfile.xls") # 文件 名 在 引号 中 是 因为 myfile.xls 是 字符 型 变量 的 值 
当然 ， 下 一 次 你 可 能 想 要 分 析 不 同 的 文件 ， 只 需 将 文件 名 替换 为 新 文件 的 名 字 即 可 。 你 还 
可 以 创建 简单 的 数学 函数 或 相当 复杂 的 程序 ， 例 如 用 来 生成 一 种 特殊 类 型 的 图 ， 后 面 我 们 


会 看 到 这 些 图 。 


1.11 开始 令 人 享受 的 事 
图 1-3 展示 了 几 张 基于 Nimrod 数据 集 生成 的 图 。 本 书后 面 几 章 将 讨论 所 有 这 些 类 型 的 图 ， 
当 你 读 完 本 书 ， 应 该 能 够 生成 任意 一 种 或 更 多 的 图 。 
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图 1-3: 基于 Nimrod 数据 集 生成 的 几 种 类 型 的 图 
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练习 1-4 
在 练习 1-2 或 者 练习 1-3 中 ， 如 果 输 入 数据 时 遇 到 问题 ， 按 照 如 下 两 种 方法 ， 试 着 输入 练 
习 1-1 中 简单 的 数据 集 。 首 先 ， 数 据 如 下 : 


存活 率 ”使 用 年 数 





1 94 
2 92 
3 90 
4 80 
方法 1: 电子 表格 


打开 电子 表格 ,输入 5 行 (包括 标题 ) 2 列 的 数据 ， 如 下 所 示 。 把 文件 以 .csv 格式 导出 到 
工作 目录 ( 详 见 1.7 节 )， 并 命名 为 simplel.csv。 然 后 ， 创 建新 的 数据 框 mydata。 代 码 如 下 : 





> mydata = read.csv("simple1.csv",header=TRUE) 


> mydata 
year rate 
1 1 94 
2 2 92 
3 3 90 
4 4 80 
5 NA NA 








本 例 的 电子 表格 中 有 一 行 空白 ， 因 此 R 数 据 框 的 最 后 一 行 存在 缺失 值 。 可 以 使 用 参数 
nrows， 只 读 入 指定 的 几 行 数据 来 处 理 缺 失 值 。 代 码 如 下 : 














> mydata= read.csv("simple1.csv",header=TRUE, nrows=4) 
> mydata 


year rate 
1 94 


ODP 


2 
3 90 
4 

















如 果 在 标题 前 有 其 他 (空白) 行 ,结果 可 能 如 下 所 示 : 





> mydata 


X X.1 X.2 X.3 


1 NA year rate NA 
2 NA 1 94 NA 
3 NA 2 92 NA 
4 NA 3 90 NA 
5 NA 4 80 NA 


可 以 使 用 参数 skip 忽略 第 一 行 ， 代 码 如 下 : 





= 
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>mydata= read.csv("simplela.csv",header=TRUE,skip=1, nrows=4) 
> mydata 


X year rate X.1 
1 NA 1 94 NA 


2 NA 2 92 NA 
3 NA 3 90 NA 
4 NA 4 80 NA 





在 最 后 一 个 例子 中 ， 有 人 额外 的 列 。 这 不 是 一 个 大 问题 ， 忽 略 即 可 。 重 要 的 是 两 个 向 量 year 
和 rate 有 正确 的 行 数 。 如 果 想 删除 其 中 一 个 无 用 的 列 ， 可 按 如 下 方式 处 理 : 












































>mydata$X = NULL 
>mydata 


year rate X.1 


1 1 94 NA 
2 2 92 NA 
3 3 90 NA 
4 4 80 NA 
方法 2: 文本 


打开 文字 处 理 器 或 者 文本 编辑 器 。 输 入 数据 ， 每 一 行 中 输入 的 两 个 数字 之 间 用 空格 分 开 ， 
并 在 每 行 结尾 回 车 ， 如 下 所 示 : 





year rate 
x 94 
2 92 
3 90 
4 80 




















多 余 的 空格 无 关 紧 要 ， 但 是 数据 应 该 被 保存 为 纯 文 本 ， 而 不 是 富 文本 。 如 果 你 的 文字 处 理 
器 允许 保存 为 .txt 文件 ， 使 用 “另存 为 ”命令 将 文件 保存 到 工作 目录 ， 并 命名 为 simple2.txt。 
否则 ， 需 要 使 用 导出 命令 导出 文件 ， 同 样 命名 为 simple2.xt。 将 数据 读 信 R， 并 使 用 如 下 命 
令 创 建新 数据 框 newdata: 





























> newdata = read.table("simple2.txt",sep="",header=TRUE) 
> newdata 


year rate 
1 94 


上 WP 请 


2 
3 90 
4 
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第 2 章 


R 图 概述 








本 章 讨论 怎样 导出 图 表 以 及 探索 性 图 表 和 展示 性 图 表 间 的 区 别 ， 也 会 简单 概述 R 中 的 几 种 
图 形 系统 。 如 果 你 有 编程 经 验 或 者 丰富 的 图 表 经 验 ， 在 了 解 R 图 表 类 型 的 特性 前 ， 很 可 能 
会 想 先 了 解 这 些 内 容 。 如 果 你 没有 这 样 的 背景 ， 可 能 会 觉得 这 一 章 技 术 性 有 点 过 强 ， 此 时 
此 刻 没 必要 学 习 。 若 是 这 种 情况 ， 则 可 直接 转 到 第 3 章 ， 准 备 好 后 再 来 看 这 一 章 。 


2.1 图 表 导 出 


制作 一 张 图 表 后 ， 你 可 能 想 保 存 它 或 者 将 它 存 和 文件。 怎样 保存 取决 于 你 正在 使 用 的 软件 
是 什么 。 例 如 ， 如 果 使 用 文字 处 理 软件 ， 可 以 简单 地 复制 图 表 ， 方法 是 打开 R 的 图 形 窗 
口 ， 点 击 “ 编 辑 ”(Edit) 菜单 中 的 “复制 ”(Copy)， 或 者 点 击 链 接 到 图 表 的 上 下 文 菜单 ， 
然后 就 可 以 把 图 表 粘 贴 到 文字 处 理 软件 。 


其 他 软件 需要 你 付出 更 多 的 努力 。 若 尝试 了 复制 粘贴 的 方法 但 不 起 作用 ， 就 需要 选择 一 
个 文件 类 型 ， 并 使 R 以 这 种 格式 保存 图 表 到 指定 文件 。 图片 格式 有 .bmp、.pdf、.jpeg、 
.png、.tiff、.ps (PostScript)， 等 等 。 可 以 以 这 些 格 式 中 的 任意 一 种 保存 图 片 。 下 面 的 代码 
示例 展示 了 怎样 将 练习 1-1 中 制作 的 图 表 保 存 为 jpeg 文件， 命名 为 testjpeg (当然 ， 可 以 
用 任意 其 他 名 字 来 命名 ， 只 要 扩展 名 是 .jpeg。 比 如 ， 将 它 命名 为 mywork.jpeg) : 





































































































jpeg("test.jpeg") # 打开 图 案 
plot(year, rate) 
dev.off() # 关闭 图 案 , 必 须 执行 这 条 
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图 表 按 此 方式 保存 以 后 ， 可 以 播 入 文字 处 理 程序 的 文档 。 比 如 在 OpenOffice 中 ， 可 以 打 
开 “ 插 入 ”(Insert) 窗口 ， 点 击 “ 图 片 ”(Picture) ， 再 点 击 “从 文件 ”(From File), JE 
从 工作 目录 中 选择 testjpeg 文件 。 当 然 ， 当 图 片 保存 在 一 个 文件 中 后 ， 可 被 加 载 到 各 种 应 
用 程序 ， 比 如 绘图 或 插图 程序 。 例 如 ， 如 果 需 要 ， 可 以 在 Adobe Illustrator 或 Inkscape 中 
“美化 ”(brush up) 你 的 R 图 。 本 书 中 的 图 表 不 “美化 ”， 以 png 格式 保存 在 我 的 编辑 的 
Google Drive 账号 中 。 对 于 高 分 辩 率 图 ， 我 使 用 如 下 这 段 代 码 : 




























































































dpi=600 

png("filename.png", width = 6*dpi, height = 6*dpi, 
res = dpi) 

graphic commands 

dev.off() 


要 了 解 更 多 这 种 保存 文件 的 方式 ， 可 答 入 ?png 进行 查看 。 





什么 是 “设备 ” 
指定 设备 是 告诉 R 在 哪里 画图 ， 并 定义 及 将 采取 的 格式 。 如 果 没 有 指定 设备 ， 图 形 出 
现在 计算 机 屏幕 上 的 图 形 窗口 中 。 如 果 想 将 图 表 保 存 到 文件 (在 硬盘 、 闪 存 或 者 其 他 
地 方 ) ， 必 须 通 过 “打开 设备 ”(opening a device), 告诉 RR 将 图 表 写 入 哪个 文件 ( 设 
备 )。 通 过 命令 告诉 R 使 用 的 设备 以 及 及 文件 的 格式 ， 比 如 jpeg, pdf. png 等 。 然 
后 ， 可 以 使 用 任何 需要 的 图 形 命令 在 设备 上 画 你 想 要 的 类 型 的 图 。 最 后 ,“ 关 闭 设备 ” 
(close the device) ， 即 停止 写 入 该 文件 。 如 果 已 经 (使 用 dev.off()) 关 掉 了 设备 ， 则 
结果 会 显示 在 屏幕 上 ， 或 者 写 入 一 个 打开 的 新 设备 。 输 入 ?device A, TIRES 
关于 设备 的 信息 。 











2.2 ”探索 性 图 表 和 展示 性 图 表 


图 表 有 利于 探索 (exploration) 和 展示 (presentation) 。 探 索 是 分 析 数 据 和 寻找 关系 与 模式 
的 过 程 ， 展 示 成 果 是 将 你 的 发 现 展 示 给 其 他 人 ， 他 们 没有 像 你 一 样 深入 研究 过 这 些 数 据 。 
在 探索 数据 期 间 ， 你 的 图 表 可 能 是 粗 陋 的 、 简 单 的 ， 某 种 程度 上 没有 吸引 力 。 作 为 数据 分 
析 师 ， 你 了 解数 据 ， 并 随 着 每 张 图 表 的 制作 ， 了 解 越 来 越 深 入 。 有 人 可 能 期 望 看 到 所 有 的 
标题 、 标 签 、 参 考 细 节 和 颜色 ， 他 们 发 现 这些 是 必要 的 ， 但 这 些 对 你 并 不 是 必需 的 。 另 
外 ， 添 加 所 有 无 关 紧 要 的 细节 只 会 减 慢 探索 的 速度 。 同 时 ， 一 些 图 表 会 被 证 明 是 行 不 通 的 
或 不 是 很 有 趣 。 因 此 ， 在 探索 的 过 程 中 ， 很 多 图 表 可 能 会 被 丢弃 。 

随 着 探索 过 程 的 继续 ， 添 加 一 些 细节 可 以 让 关系 更 加 清晰 。 越 接近 展示 或 发 布 ， 图 表 就 会 
越 详细 、 越 漂亮 。 在 分 析 数 据 的 过 程 中 ， 你 可 能 会 创建 很 多 单调 的 图 表 ， 最 终 报 告 中 的 漂 
亮 图 表 则 相当 少 。 
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下 面 是 mtcars 数据 集 的 两 张 图 表 ，R 的 基础 安装 中 包括 该 数据 集 。 它 展示 了 mpg (英里 / 
加 仓 ) 和 wt (汽车 的 重量 ) 间 的 关系 。 第 一 张 图 ( 见 图 2-1) ZARA (scatter plot) PF 
别 这 两 个 变量 间 关 系 的 早期 尝试 。 它 清楚 地 表明 ， 随 着 汽车 重量 的 增加 ， 每 加 仓 行驶 的 里 
程 减少 。 如 果 你 不 熟悉 散 点 图 ， 在 读 完 第 12 章 后 ， 可 能 会 想 回 到 这 个 例子 。 第 二 张 图 ， 
如 图 2-2 所 示 ， 比 第 一 张 图 精致 。 它 有 标题 和 坐标 轴 上 的 标签 ， 并 按 气缸 数 将 汽车 分 类 ， 
当然 图 片 还 是 彩色 的 。 这 是 可 以 在 演示 文稿 (PowerPoint) 上 展示 的 图 表 。 在 这 两 个 例子 
之 间 ， 可 能 有 其 他 数 个 相对 单调 的 探索 性 图 表 。 因 为 本 书 主要 介绍 图 表 分 析 的 过 程 ， 所 以 
书 中 的 很 多 例子 简单 、 朴 实 无 华 ， 但 它们 都 会 通 向 有 吸引 力 的 成 品 。 

















































































































生成 图 2-1 的 一 行 代码 如 下 : 


plot(mtcars$wt, mtcars$mpg, pch=16) 
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2-1; wt 和 mpg 的 探索 性 图 表 
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所 选 汽车 的 耗 油 量 示意 图 
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图 2-2: wt 和 npg 的 展示 性 图 表 ; 图 2-1 的 改进 版 


生成 更 丰富 多 彩 且 更 精致 的 图 2-2 需要 多 几 行 代码 。 完 成 它 需 要 做 更 多 的 工作 ， 但 是 它 可 
以 作为 有 用 的 展示 对 象 ， 付 出 的 努力 也 是 值得 的 。 生 成 图 表 使 用 的 各 种 类 型 的 命令 在 此 不 





做 介绍 ， 本 书后 儿 章 会 对 它们 进行 讨论 。 要 点 就 是 用 R 
是 若 要 制作 精美 的 图 表 ， 则 需要 多 做 一 些 工 作 。 生 成 图 





# 生成 图 2-2 的 脚本 
library(car) 
attach(mtcars) 
par (bg="snow",fg="sSnow",col.axis="black" ,bty="L") 
mtcarsSwt2 = 1000*wt 
attach(mtcars) 
scatter plot(mpg~wt2|cyl, 
smoother=FALSE, 
reg. line=FALSE, 
col=c("indianred4","blue","purple"), 





很 容易 制作 出 简单 有 效 的 医 


2-2 的 脚本 如 下 : 














K, 但 








RAI 





概述 


pch=c(15,16,17), 

main="Fuel Consumption in Selected Cars", 
ylab="Miles per Gallon", 

xlab="Weight of Car in Pounds",las=1, 
Legend.plot=FALSE, bty="1L") 


axis(2,col="black",at=c(10,15,20,25,30,35),las=2) 
axis(1,col="black" , at=c(1000, 2000, 3000, 4000 ,5000,6000)) 


legend('"topright", 
title="No. of Cylinders", 
c("4" a "6" 5 B's 
inset=-.005, 
text.col=c("indianred4", 
"blue", purple"), 
title.col="black", 
cex =.65, 
pch=c(15,16,17), 
col=c("indianred4","blue","purple"), 
bty="n") 

detach(mtcars) 
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R 有 几 种 可 用 的 图 形 系统 。 基 础 R 包 有 很 多 好 用 的 
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形 软 件 包 扩 展 了 有 R 的 制图 能 力 。 下 面 的 讨论 描述 了 各 种 图 











2.3.1 基本 图 形 和 网 格 












































Be, (E R 用 户 也 通过 贡献 新 的 
形 包 的 优势 和 风格 。 


Pal 











基础 R 包括 图 形 软 件 包 ， 在 第 一 次 安装 R 的 时 候 会 自动 安装 ， 且 每 次 启动 R 的 时 候 也 会 自 
动 加 载 。 它 可 以 生成 广泛 定制 的 多 种 类 型 的 图 表 ， 功 能 非常 强大 。 很 多 R 用 户 永远 不 需要 比 
基础 RR 提供 的 更 强大 、 更 灵活 的 功能 。 本 书 的 大 多 数 图 表 是 用 基础 的 R 图 形 软件 包 生 成 的 。 








尽管 基础 R 图形 包 让 人 印象 深刻 ， 但 有 时 应 用 程序 要 求 对 图 形 输 出 的 细节 有 更 多 控制 。 因 
此 ， 针 对 低级 (low-level) 的 图 形 ， 开 发 了 网 格 (grid) 包 。 “低级 ”是 指 grid 提供 了 大 





量 的 工具 或 材料 ， 供 使 用 其 他 包 的 开发 者 利用 ， 来 完成 图 表 。 


在 这 方面 ，grtd 有 点 像 一 个 生产 木板 (低级 材料 ) 的 木材 广 ， 建 筑 商 或 家 庭 业主 将 这 些 材 
料 用 在 房屋 内 的 (高 级 ) 项 目 ， 比 如 地 板 或 者 书架 子 上 。 好 的 建造 者 不 需要 关心 木材 三 如 
何 截断 树木 、 粗 切 木板 及 人 刨 光 。 建 造 者 的 工作 从 木板 开始 ， 而 不 是 从 树木 开始 。9grid 包 加 
工 材料 ， 这 些 原料 可 用 于 本 章 所 讨论 的 其 他 图 形 系统 ， 以 及 其 他 多 种 R 包 中 的 一 些 图 形 处 
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2.3.2 lattice 




















程序 。grid 包 不 提供 任何 能 直接 用 于 完成 图 表 的 函数 。 我 们 需要 用 到 的 一 些 图 形 函 数 已 
经 使 用 grid 函数 构建 完成 。 关 于 grid 的 详细 信息 ， 参 见 Murrell (2011)。 因 为 用 户 通常 
不 直接 编写 网 格 代码 ， 所 以 这 里 没有 与 grid 相关 的 例子 。 











开发 lattice 包 是 为 了 针对 多 元 数据 (multivariate data) 提供 改进 的 图 表 ， 即 一 次 绘制 
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超过 两 个 变量 的 图 形 。Lattice 仿照 了 Cleveland (1985, 1993) 描述 的 格子 图 (trellis 
graphics)。 他 认为 ， 有 时 可 视 化 几 个 变量 间 关 系 的 最 有 效 的 方法 ， 并 不 是 试图 把 所 有 变量 
放 在 一 张 图 表 中 ， 而 是 查看 几 个 按 目 的 组 织 的 相关 的 图 表 。 例 如 ， 图 2-3 展示 了 一 个 来 自 
epicalc 包 的 BP 数据 集 格子 图 ， 有 四 个 窗口 或 面板 (panel) 。 在 每 个 面板 中 有 一 张 收缩 压 / 
舒张 压 的 图 ， 每 个 面板 展示 了 sex (性 别 ) 和 saltadd (是 否 在 饮食 中 加 盐 ) 的 组 合 图 
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舒张 压 
2-3: 使 用 lattice 包 生 成 的 格子 图 
通过 在 一 个 页 面 上 浏览 四 个 相关 的 图 表 ， 图 2-3 展示 了 一 种 同时 研讨 四 个 变量 间 关 系 的 方 





























式 。 代 码 如 下 : 


# 图 2-3 

library(lattice) 

library(epicalc) 

attach(BP) 
xyplot(sbp~dbp|saltadd*sex,pch=16) 
detach(BP) 
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lattice 在 安装 基础 及 时 会 自动 安装 ， 但 在 需要 它 的 每 个 会 话 中 必须 加 载 它 。 除 了 格子 
已 还 包括 许多 其 他 类 图 表 函 数 。 虽 然 本 书 只 使 用 了 几 个 lattice 的 例子 ， 但 它 是 一 个 很 好 上 
R 图 形 包 ,扩展 了 RR 的 功能 。 当 你 越 来 越 熟 悉 R 和 基础 图 形 时 ， 会 发 现 它 值得 花 时 间 学 习 。 
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2.3.3 ggplot2 

设计 ggplot2 包 是 为 了 在 访问 所 有 的 图 表 类 型 时 语法 一 致 ， 也 就 是 说 ， 从 一 种 图 形 到 另 一 
种 图 形 ， 命 令 语言 是 相似 的 。 这 和 基础 R 形成 鲜明 对 比 ， 因 为 它 有 许多 可 用 于 多 个 不 同类 
型 的 图 表 参 数 ， 但 也 有 一 些 差异 。ggptot2 包 功 能 也 很 强大 ， 你 可 以 很 轻松 地 定制 图 表 的 
显示 。 因 为 这 个 包 的 语法 和 基础 R 差异 很 大 ， 所 以 本 书 很 少 有 使 用 它 的 例子 。 不 过 ， 应 该 



























































提 一 下 ， 有 些 命令 的 设计 看 起 来 和 基础 R 很 类 似 ， 所 以 可 以 尝试 一 





下 ggplot2 的 功能 ， 不 

















需要 付出 多 少 努 力 。 如 果 你 需要 这 个 包 的 一 些 特殊 功能 ， 在 更 好 地 理解 R 以 后 ， 可 以 学 习 


一 下 。ggplot2 和 基础 R 图 











形 的 审美 风格 相当 不 同 ， 你 可 能 喜欢 也 可 能 不 喜欢 它 。 图 





2-4 


是 它 的 一 个 例子 ， 由 如 下 代码 生成 : 





# 图 2-4 
library(ggplot2) 


ggplot(mtcars, aes(x=wt, y=mpg)) + geom_point() 
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图 2-4: 基于 与 图 2-1 和 图 2-2 中 基础 R 图 相同 的 数据 ， 用 goplot2 生成 的 简单 图 表 
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ggplot2 不 是 随 基 础 R 包 一 起 安装 的 ， 因 此 ， 如 末 需 要 使 用 它 ， 首 先 要 安装 它 ， 然 后 在 想 
使 用 它 的 每 个 会 话 中 加 载 它 。 





2.3.4 包 的 特殊 应 用 程序 /图 表 

许多 包 内 含 一 些 绘图 功能 ， 即 便 那些 不 是 主要 用 作 图 形 包 的 包 也 是 如 此 。 在 CRAN 任务 视 
图 的 Web 页 面 (http://cran.r-project.org/web/views/)， 你 可 以 领略 到 丰富 多 样 的 图 形 产 品 。 
点 击 Graphics 查看 许多 包 中 的 图 形 类 型 的 概述 ， 但 请 记 住 ， 这 并 不 包括 所 有 的 图 形 类 型 。 
此 外 ， 一些 包 可 能 只 有 儿 个 温 有 许多 其 他 特性 的 图 表 函 数 ， 而 这 些 类 型 的 包 通 常 不 会 出 现 
在 任务 视图 中 。 用 你 最 喜欢 的 搜索 引擎 在 互联 网 上 搜索 R 中 某 种 图 形 系统 的 相关 信息 。 在 
成 千 上 万 个 R 包 中 找到 你 想 要 的 包 是 一 个 艰巨 的 任务 ! 


















































235 ”用 户 自 定义 图 表 函 数 

如 果 找 不 到 适合 数据 的 图 表 ， 可 以 自己 写 一 个 图 表 函 数 。 这 只 是 第 1 章 提 到 的 方法 的 扩 
展 。 后 面 将 介绍 大 量 的 图 形 工具 ， 你 可 以 将 它们 用 到 这 些 函 数 中 。 第 14 章 提 供 了 用 户 编 
写 的 用 来 生成 Bland-Altman 图 的 图 形 函 数 的 例子 。 


























Oo 




















R 图 概述 | 31 





第 二 部 分 





单 变量 图 





对 数据 集 的 探索 性 分 析 通 常 从 一 次 单 变量 研究 开始 。 本 部 分 中 将 讨论 几 种 绘图 的 方法 ， 来 





发 现 单一 特征 中 的 模式 。 例 如 ， 如 果 人 是 统计 单位 ， 那 么 单个 特征 
智商 ) 有 多 少 可 变性 ? 如 有 果 以 汽车 为 统计 单位 ， 我 们 可 能 会 好 奇 它 
或 马力 方面 有 怎样 的 变化 。 当 我 们 单独 了 解 每 个 变量 时 ， 研 究 变量 
义 的 ， 但 这 是 下 一 个 部 分 的 主题 。 








(比如 身高 、 体 重 或 者 
们 在 最 大 速度 、 耗 油 量 
间 的 关系 通常 是 有 意 

















接 下 来 几 章 中 的 单 变量 方法 是 专 为 定量 变量 设计 的 ， 除 了 条 形 图 和 人 饼 图 ， 这 两 种 图 适用 于 

















分 类 变量 。 你 还 可 以 扩展 本 部 分 中 的 大 部 分 图 形 ， 以 研究 第 二 个 变量 对 主 变量 的 影响 。 这 
些 扩展 相当 于 两 个 (或 多 个 ) 单 变量 图 ， 通 过 第 二 个 变量 的 值 来 编排 。 因 此 ， 本 部 分 包含 

















扩展 图 和 与 之 相对 应 的 单 变量 图 。 











AE 
3.1 一 种 简单 的 图 
带 状 图 (strip chart) 是 最 简单 但 仍然 非常 有 用 的 一 种 图 。 一 些 分 析 师 称 其 为 “点 图 ” 
(dot plot) 。 此 类 图 提供 了 一 种 查看 一 组 数字 如 何 分 布 (distribute) 的 方法 。 也 就 是 说 ， 
数据 的 形状 是 什么 ?》 可 以 确定 最 大 和 最 小 数字 吗 ? 它们 是 如 何 展开 的 ， 以 及 一 些 数字 是 
否 聚 集 在 一 起 ? 


我 们 来 研讨 一 下 基础 R 包 提 供 的 trees 数据 集 。 为 了 查看 该 数据 集 的 描述 ， 请 输入 如 下 命令 : 












































> ?trees 


该 命令 会 打开 一 个 新 窗口 ， 描 述 了 该 数据 集 。 窗 口中 提供 的 信息 如 下 : 











这 是 关于 数据 的 简单 概述 。 





使 用 
显示 数据 集 的 名 字 。 


格式 
说 明 数 据 集 的 结构 是 数据 框 ， 有 3 个 变量 及 31 个 观测 值 ， 并 给 出 变量 名 和 测量 单位 。 


来 源 
标明 数据 来 自 哪 里 。 
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参考 文献 
包含 数据 分 析 例 子 的 书籍 或 文章 。 我 有 时 复制 并 粘贴 参考 文献 到 搜索 引擎， 来 查看 其 中 
的 分 析 示 例 。 这 种 方法 并 不 总 是 成 功 的 ， 但 一 旦 可 行 ， 通 常 是 非常 有 用 的 。 





例子 
提供 一 些 使 用 数据 集 的 R 代码 。 复 制 并 粘贴 一 个 或 多 个 例子 到 R 控制 台 ， 看 看 生成 了 
哪 类 统计 分 析 或 图 形 ， 有 时 这 么 做 很 有 趣 。 本 书 稍 后 将 讨论 生成 的 图 形 类 型 ， 但 也 有 一 
些 统计 分 析 没 有 涉及 。 


大 多 数 数据 集 的 帮助 文档 提供 了 上 面 列 出 的 多 项 信息 。 












































当 你 需要 一 点 帮助 …… 
R 提供 了 几 种 易于 访问 的 帮助 。 举 例如 下 。 


。 ?numbers 为 以 numbers 命名 的 数据 集 提供 帮助 。 

e ?mighty 为 以 mighty 命名 的 耶 数 提供 帮助 。 

e example(x) 提供 函数 x 的 样 例 输出 。 请 党 试 命令 example(stripchart) , 

e vignette() 列 出 安装 在 计算 机 上 的 所 有 包 的 简介 。 试 试看 ! 

。 vignette(x) 展示 x 的 简介 。 简 介 几 乎 可 以 是 任何 内 容 ， 从 用 户 手 册 到 R 代码 以 及 
示例 输出 。 











trees 数据 集中 的 所 有 变量 以 不 同 的 方式 测量 样本 中 31 棵 树 的 大 小 。 考 虑 第 一 个 变量 
Volume， 试 试 下 面 的 命令 。 确 保 Volume 中 的 字母 V EASA; 否则 R 将 报错 ， 因 为 它 不 


识别 变量 volume。 





> attach(trees) 


> Volume 

你 将 会 看 到 如 下 结果 : 
[1] 10.3 10.3 10.2 16.4 18.8 19.7 15.6 18.2 22.6 19.9 24.2 . 
[19] 25.7 24.9 34.5 31.7 36.3 38.3 42.6 55.4 55.7 58.3 51.5 . 





R 打印 出 31 棵 树 各 自 的 体积 。 输 出 包含 索引 号 ， 显 示 第 一 行 始 于 [1], [1] 为 向 量 的 第 一 
个 元 素 。 第 二 行 始 于 第 19 个 元 素 。 处 理 这 些 信息 可 能 需要 一 段 时 间 ， 因 此 需要 一 点 策略 。 
也 许 首先 应 该 寻找 最 小 值 和 最 大 值 ， 也 可 以 试 着 猜测 平均 值 ， 或 者 看 看 是 否 有 些 树 的 体积 
相同 。 即 使 像 这 样 的 一 个 相对 较 小 的 数据 集 ， 这 个 过 程 看 起 来 都 似乎 很 难 。 下 面 的 代码 尝 
试 一 个 简单 的 图 : 


























> stripchart(Volume) 





带 状 图 如 图 3-1 所 示 。 
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3-1; BS Volume 的 带 状 图 





底部 坐标 轴 显 示 31 棵 树 的 体积 的 数值 。 图 形 显示 许多 值 集中 在 20~30 立方 英尺 附近 ， 少 
量 的 值 集中 于 50~60 立方 英尺 。 有 一 个 非常 大 的 值 ， 远 远 超 过 70。 这 么 大 的 值 会 引出 一 些 
重要 的 问题 。 是 否 有 一 些 可 以 解释 异常 值 的 因素 被 忽视 了 ? 是 否 在 测量 或 记录 树 的 测量 值 
时 出 现 了 错误 ? 是 否 有 一 些 方法 来 验证 或 纠正 异常 数据 ?如 有 果 要 进一步 分 析 这 些 数据 ， 这 
个 异常 值 应 该 包含 在 内 还 是 排除 在 外 ? 所 有 这 些 可 能 被 忽视 的 问题 ， 使 分 析 从 只 芳 虑 数据 
开始 一 一 换 句 话说 ， 仅 考虑 平均 体积 。 


图 中 没有 31 个 不 同 的 方块 ， 因 为 有 些 树 的 体积 相同 或 接近 。 通 过 在 stripchart() 命令 中 
添加 一 个 参数 ， 可 以 把 在 图 中 争夺 相同 位 置 的 那些 树 分 散 开 ， 如 下 所 示 : 





















































> stripchart(Volume, method = "jitter") 


3-2 比 图 3-1 有 明显 的 改善 。 
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图 3-2: NARA DKS 

图 3-2 中 仍 有 一 些 重合， 但 仔细 数 数 现在 有 31 hk. KEMERE “Boy” Ae 
于 或 低 于 彼此 ， 使 图 更 易于 阅读 。 进 一 步 改 善 该 图 的 一 个 方法 是 增加 图 中 抖动 量 。 可 以 使 
用 帮助 命令 查看 可 用 选项 ， 命 令 如 下 : 














> ?stripchart 





stripchart() 的 帮助 文件 有 很 多 有 用 的 信息 ， 包 括 很 多 本 书 没有 介绍 但 也 许 对 你 很 有 帮助 
的 信息 。 帮 助 文件 包括 以 下 几 个 部 分 。 





描述 (Description) 


表明 函数 的 作用 ， 以 及 适用 于 哪些 情况 。 


使 用 (Usage) 
说 明基 本 的 语法 和 默认 选项 。 换 句 话 说， 如 果 不 指 定 特定 参数 ， 将 会 发 生 什 么 ? 

















参数 (Argument) 
描述 了 可 以 做 的 选择 ， 通 过 选择 来 达到 自己 想 要 的 结果 。( 参 数 是 在 1.2 节 中 定义 的 。) 














细节 (Detail) 


此 处 提供 各 种 细节 ， 比 如 去 哪里 找到 更 多 信息 、 函 数 是 谁 开发 的 ， 等 等 。 





举例 (Example) 
提供 代码 ， 你 可 以 将 其 复制 粘贴 到 控制 台 ， 来 感受 下 函数 的 真正 功能 





帮助 文件 显示 ，jtitter 的 默认 值 是 9.1。 用 参数 jitter 和 参数 stack 做 实验 ， 看 看 它们 是 
如 何 工 作 的 。 优 化 图 形 的 另 一 种 方法 是 使 用 参数 pch (可 看 作 plot character) 改变 代表 每 个 
点 的 符号 。 这 一 次 ， 使 用 参数 xlab 为 x 轴 添 加 一 个 标签 ， 代 码 如 下 : 





> stripchart(Volume, method = "jitter", pch = 20, 
xlab = "Volume in cubic feet") 


改变 后 的 结果 如 图 3-3 所 示 。 
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体积 〈 以 立方 英尺 为 单位 ) 











图 3-3: 增加 抖动 并 改变 打印 符号 的 体积 带 状 图 


因为 打印 符号 较 小 ， A ela i Care ， 所 以 图 3-3 中 各 树 的 体积 的 间隔 非 
常 清晰 。 若 仔细 看 图 3-2 和 图 3-3， 你 会 发 现 点 的 位 置 似 平 有 点 不 同 了 。 实际 上 ， 它 们 都 









































是 对 的 ! 当 使 用 method = "jitter" 时 ， 点 是 随机 (random) 放置 的 ， 高 于 或 低 于 地 平 线 。 
因此 ， 即 使 是 完全 相同 的 数据 ， 每 次 执行 带 拌 动 的 stripchart() 命令 ， 结 果 也 会 略 有 不 
lh], 2A] (vertical placement) 上 的 位 置 会 略 有 不 同 ， 但 水 平 位 置 则 完全 相同 ， 而 水 平 
位 置 才 是 我 们 所 关心 的 。( 实 际 上 ， 有 一 种 方法 可 以 解决 这 个 问题 ， 但 会 带 来 一 个 技术 问 
题 ， 这 里 我 不 想 介绍 。 如 果 想 看 每 个 图 中 在 同一 个 位 置 的 点 ， 那 么 每 次 使 用 stripchart() 
命令 时 ， 在 其 前 边 输入 set.seed(1) 命令 。) 











看 下 面 的 命令 : 
> ?points 


它 将 打开 一 个 窗口 ， 窗 口中 包括 参数 pch 的 选项 ， 还 有 很 多 其 他 信息 。 图 3-4 提取 出 了 
pch 选项 ， 并 以 更 方便 的 形式 展示 出 来 。 





pch 的 值 


0o o 5 © 10 © 15 m 20 。 25 v 











3-4: 图 形 参数 pch 的 选项 








对 带 状 图 来 说 ， 最 好 的 符号 是 那些 重合 最 少 的 符号 ， 往 往 是 空心 贺 (pch=1) 或 非常 小 的 符 
号 (pch=20 或 pch=18)， 还 可 以 使 用 其 他 字符 。 因 此 ， 如 果 想 要 非常 小 的 图 形 标记 ， 可 以 
使 用 英文 句号 : 

















pch = "." 
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3.2 ”数据 可 以 漂亮 
图 3-3 是 一 个 非常 好 的 展示 数据 的 方式 ， 便 于 理解 数据 。 然 而 ， 为 了 达到 展示 的 目的 ， 我 
们 可 能 更 喜欢 引 人 注 目的 东西 。 为 使 这 张 图 更 加 有 趣 一 点 ， 可 以 做 几 件 事 。 此 处 讨论 的 内 
容 对 于 后 文中 的 图 形 也 是 有 帮助 的 。 











KERR 图 的 四 周 都 有 框 。 这 些 框 通常 不 是 必要 的 ， 看 起 来 缺乏 吸引 力 ， 而 且 也 会 分 散 注 
意 力 。( 有 些 人 喜欢 有 框 ， 但 和 我 一 起 学 习 ， 你 可 能 会 在 某 个 时 刻 想 知道 如 何 去 掉 框 。) 幸 
运 的 是 ， 可 以 很 容易 地 将 它们 去 掉 。 有 许多 参数 可 以 用 来 控制 图 形 输出 。 查 看 图 形 参数 的 
列表 ， 请 输入 以 下 命令 : 





























> ?par 








可 以 在 不 同 的 图 形 命 令 中 使 用 这 些 参 数 。 其 中 一 些 参 数 只 能 在 par) 命令 中 使 用 ，par() 
命令 通常 出 现在 调用 另 一 个 图 形 函 数 之 前 。 控 制图 框 的 参数 是 bty， 即 框 的 类 型 (box 
type)。 在 输入 图 形 命令 之 前 ， 发 出 par(bty="n") 命令 ， 以 完全 去 掉 框 。 以 下 两 条 命令 生成 
没有 框 围绕 的 图 3-5: 






































> par(bty = "n") # 图 3-5 
> stripchart(Volume, method = "jitter", pch = 20, 





xlab = "Volume in cubic feet") 
e e e è e 
e e »°.° 
a . ‘ e o a 
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@ e e 


10 20 30 40 50 60 70 


AR 〈 以 立方 英尺 为 单位 ) 








图 3-5: 体积 的 带 状 图 ， 周 围 没有 杠 
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图 的 周围 有 框 吗 
图 的 周围 可 以 四 周 有 框 、 局 部 有 框 或 都 没有 框 。 par() 函数 的 参数 bty 可 用 的 选项 有 
"o" (BRIA), "UL "7" "ce" UTA 门 "。 每 一 个 参数 可 在 图 周围 ， 以 参数 表示 的 形 
状 创 建 一 个 局 部 框 。bty = "n" 表示 去 掉 整 个 框 。 理 解 这 些 的 最 好 方法 是 亲自 尝试 使 用 
其 中 一 个 或 多 个 。 欲 了解 更 多 信息 ， 请 输入 ?par 查询 。 














注意 ， 图 3-5 PAYA ATE, Volume 的 单个 极 值 似乎 没 处 于 适当 的 位 置 ， 超 出 了 图 像 范 
围 。 可 以 通过 使 用 参数 xLim 延长 坐标 轴 来 解决 这 个 问题 ， 如 图 3-6 所 示 。 
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体积 (以 立方 英尺 为 单位 ) 
数据 来 源 ，Minitab 学 生 手 册 

















图 3-6: 没有 框 、 添 加 颜色 、 延 长 坐标 轴 并 添加 文本 的 带 状 图 


接 下 来 想到 的 可 能 是 颜色 。 在 stripchart() 命令 中 再 添加 一 个 参数 ， 很 容易 就 能 改变 点 的 


























# 图 3-6 

par(bty = "n") 

stripchart(VoLume, 
method = "jitter", jitter = .3, 
pch = 20, 
xlab = "Volume in cubic feet", 


col = "dodgerblue4", 

ylim = c(0,8), 

xlim = c(10,80)) # xlim 强制 x 取 值 位 于 10 ~ 80 
# 且 ylim 更 接近 x 轴 


注意 ， 参 数 col 给 出 颜色 的 名 称 。R 有 657 种 已 命名 的 颜色 可 供 使 用 。 可 以 在 附录 B 查看 
颜色 列表 。 通 过 如 下 命令 ， 也 可 以 在 你 的 计算 机 屏幕 上 看 到 R 的 颜色 : 











> demo(colors) 
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前 面 命令 生成 的 图 ， 只 是 改变 了 图 中 点 的 颜色 。 看 完 该 图 之 后 ， 你 或 许 也 想 改变 坐标 轴 的 

















色 。 使 用 axis() 命令 可 以 改变 坐标 轴 的 颜色 ， 代 码 如 下 。 直 接 操作 现 有 的 图 。axits() 
令 改 变 了 前 面 命令 生成 的 图 的 坐标 轴 的 颜色 〈 对 比 图 3-6， 再 次 查看 结果 ) : 




















> axis(1, col = "dodgerblue4", at = c(10,20,30,40,50,60,70,80)) 








坐标 轴 的 控制 
axis() 函数 为 当前 平面 图 增加 坐标 轴 。axis() 命令 中 使 用 的 参数 如 下 。 
。 操作 哪个 坐标 轴 : 1。 该 参数 是 必需 的 ， 并 且 不 需要 包含 参数 名 称 (side), FT Ae t 
值 为 1= 下 、2= 左 、3= 上 和 4= 右 。 
。 坐标 轴 的 颜色 : col = "dodgerblue4" 。 
。 标记 和 标签 的 位 置 : at =c(10,20,30,40,50,60,70,80) 。 








还 有 其 他 几 个 参数 ， 克 许 指定 图 的 特性 ， 比 如 字体 、 标 签 、 线 宽 等 。 该 函数 可 以 添加 
到 大 多 数 图 表 ， 不 仅仅 是 带 状 图 。axis() 不 是 每 个 图 必需 的 函数 ， 但 和 它 使 你 对 最 终结 
果 有 很 大 的 控制 。 谷 知 更 多 信息 ， 请 输入 Paxis 查询 。 








mtext() 命令 在 图 形 的 绘图 区 域 这 外 增加 一 个 注解 : 





> mtext("Data source: Minitab Student Handbook", 
side = 1, line = 4, adj = 1, col = "dodgerblue4", cex = .7) 








给 图 添加 文本 
可 以 使 用 text() 和 mtext() 函数 在 图 的 空白 区 域 或 页 边 距 处 分 别 添 加 文本 。 对 带 状 图 
例子 中 的 mtext() 命令 的 说 明 如 下 。 
。 需要 显示 的 文本 : 本 例 中 为 "Data source: Minitab Student Handbook", 
e 位 置 : side = 1 指定 在 图 形 下 方 。 其 他 可 能 的 值 有 2( 左 ) 3( 上 ) 和 4( 右 )。 
。 图 形 下 方 (或 者 上 方 、 左 边 、 右 边 ) 线 的 数量 : line = 4, 
。 对 齐 : adj = 1 表示 在 最 右边 ，adj = 0 表示 在 最 左边 ，0~1 的 值 表示 与 左边 和 右边 
的 距离 。 
e 颜色 : col = "dodgerblue4", 
。 类 型 大 小 : cex = .7。 
欲 知 更 多 信息 ， 请 输入 ?mtext 或 ?text 查询 。 








结 


R trees 数据 集 ， 输 入 如 下 命令 : 


> detach(trees) 





3.2.1 练习 3-1 

尝试 用 另 一 个 数据 集 mtcars 绘制 带 状 图 。 为 变量 mpg 制作 一 个 简单 的 带 状 图 。 你 学 到 了 什 
A? 观察 按 汽车 拥有 的 气缸 数 分 解 的 mpg 带 状 图 ， 尝 试制 作 一 个 更 复杂 的 图 ， 也 就 是 说 ， 
为 每 个 cyl (气缸 数 ) 值 绘制 一 个 mpg 带 状 图 。 下 面 的 命令 通过 在 符号 ~ (波浪 号 ) 之 后 ， 
使 用 分 组 变量 cyl 实现 图 形 。 通 常 分 组 变量 是 一 个 分 类 变量 ， 而 在 本 例 中 ， 它 实际 上 是 一 
个 数量 变量 ， 只 有 少量 可 能 的 值 一 一 汽车 可 能 有 4、6 或 8 个 气缸 : 






























































> attach(mtcars) 

> stripchart(mpg~cyl) 

> detach(mtcars) 
这 是 一 种 改进 吗 ? 你 从 这 个 图 中 歼 取 了 哪些 额外 的 信息 ? 试 着 给 这 个 图 增加 抖动 。 这 会 
帮助 吗 ? 


3.2.2 ”练习 3-2 

很 多 可 以 添加 到 R 的 包 为 基础 人 提供 的 函数 提供 替代 方案 。 通 过 安装 plotrix fl, & 
试用 dotplot.mtb() 函数 替换 stripchart(), MIÑ trees 数据 集 的 变量 voLume。 后 者 与 
stripchart() 相似 的 地 方 是 什么 ?有 什么 不 同 吗 ? 你 更 喜欢 哪个 函数 呢 ? 
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基础 点 图 


点 图 (dot chart， 有 时 也 称 为 dot plot) 和 带 状 图 非常 相似 ， 它 们 都 展示 点 如 何 分 散 或 聚 
集 。 点 图 还 让 我 们 能 从 数据 中 收集 更 多 的 信息 。 也 许 你 认为 接 下 来 的 数据 集 有 点 可 怕 ， 但 
想 一 想 ， 本 书 的 一 些 读 者 可 能 的 确 会 定期 处 理 此 类 数据 。 因 为 本 书 介绍 的 方法 可 应 用 于 宽 
RS ee 我 们 力求 选择 不 同类 型 的 数据 来 举例 说 明 图 的 
使 用 。 下 面 来 看 USArrests 数据 集 ， 它 给 出 了 1973 年 美国 各 州 每 100 000 人 中 犯 重罪 者 
的 逮捕 率 : 


























> attach(USArrests) 
> head(USArrests) # 显示 前 6 行 ,使 用 USArrests 显 示 所 有 


Murder Assault UrbanPop Rape 


Alabama 13.2 236 58 21.2 
Alaska 10.0 263 48 44.5 
Arizona 8.1 294 80 31.0 
Arkansas 8.8 190 50 19.5 
California 9.0 276 91 40.6 
Colorado 7.9 204 78 38.7 


该 数据 集 包括 四 个 已 命名 变量 及 它们 的 值 。 有 一 列 顶 部 没有 变量 名 。 最 左边 一 列 的 值 是 行 
名 (row.names)， 在 本 例 中 此 列 为 州 的 名 称 。 很 多 时 候 , 行 的 名 称 仅仅 是 一 个 数字 。 

我 们 来 探索 该 数据 集 吧 。 首 先 ， 关 于 谋杀 隶 捕 率 ， 看 看 带 状 图 可 以 告诉 你 什么 。 尝 试 并 思 
郑 下 ， 关 于 谋杀 填 捕 率 ， 从 带 状 图 上 可 以 了 解 到 什么 。 巡 捕 率 几乎 相同 还 是 完全 不 同 ? 
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它们 是 聚集 在 一 起 还 是 分 散 的 ? 你 的 预期 是 什么 ?你 可 能 已 经 得 出 了 一 些 有 趣 的 见解 ， 但 
还 是 通过 如 下 命令 考虑 点 图 进一步 的 功能 


> dotchart(Murder) 


图 4-1 类 似 于 带 状 图 ， 图 中 显示 了 每 个 州 的 位 置 ( 沿 着 x 轴 )。 然 而 不 同 的 是 ， 每 个 州都 有 
各 自 的 “ 行 ” 或 者 水 平 线 。 因 此 ， 没 有 重合， 也 没 必要 抖动 。 


























图 4-1: 各 州 谋杀 逮捕 率 的 点 图 


可 以 对 图 形 进 行 改进 ， 例 如 为 所 有 数据 框 加 入 字符 向 量 ， 用 row.names 作为 行 标识 符 。 请 
注意 ， 数 据 框 中 的 每 一 行 有 一 个 州 名 。 通 过 添加 参数 labels = row.names(USArrests)， 可 
以 用 州 名 为 点 图 的 每 一 行 添加 标签 。 如 果 需 要 ， 标 签 也 可 以 取 其 他 变量 的 值 ， 代 码 如 下 : 























# 图 4-2 
dotchart(Murder, labels = row.names(USArrests), cex = .5) 
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由 图 4-2 可 以 很 容易 地 确定 哪些 州 谋杀 逮捕 率 最 高 ， 哪 些 州 谋杀 逮捕 率 最 低 ， 并 找到 一 些 





典型 的 或 几乎 平均 的 逮捕 率 。 


参数 labels 把 州 名 添加 到 图 上 ， 参 数 cex 改变 字符 的 大 小 。 
cex 的 默认 值 是 1， 它 的 值 越 小 ， 字 
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图 4-2: 通过 州 来 区 分 谋杀 率 的 点 图 
a oa i ne 要 做 到 这 一 


须 将 数据 按 Murder 的 大 小 排序 。 


> data2 = USArrests[order(USArrests$Murder),] 

















点 ， 首 先 必 
这 意味 着 数据 集中 的 行将 按照 谋杀 a 
使 用 order() 函数 重新 排序 ， 可 以 创建 一 个 新 的 数据 集 。 可 以 用 任 
据 集 ， 本 例 暂且 称 作 data2( 此 处 没有 创意 奖 ): 


通过 


排序 好 的 数 





接 下 来 ， 使 用 新 排序 的 数据 重新 绘 





图 ( 见 


> dotchart(data2$Murder, Labels 
cex = .5, main = "Murder arrests by state, 1973", 
xlab = "Murder arrests per 100,000 population") 


图 4-3) ， 并 添加 标题 和 标签 ， 代 码 如 下 : 





row.names(data2), 
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每 100 000 人 中 的 谋杀 逮捕 率 











图 4-3: 按照 州 谋杀 率 排序 的 点 图 


现在 ， 很 容易 看 到 哪个 州 谋杀 逮 
中 看 出 这 些 信 息 ， 但 通过 这 张 图 














果 吗 ? 记 住 ， 我 们 数据 中 的 比率 是 























率 最 高 ， 哪 个 州 谋杀 逮捕 率 最 低 。 


， 一 眼 便 可 看 出 各 州 之 间 的 相对 差异 。 这 是 你 想象 中 的 结 


隶 捕 率 ， 而 不 是 谋杀 率 。 
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通过 一 些 细节 调整 ， 图 形 可 能 会 更 有 吸引 力 。 图 符 如 果 是 实体 的 ， 将 更 加 突出 ， 因 此 添加 
pch = 19。 颜 色 可 以 吸引 观察 者 的 注意 ， 所 以 用 参数 col 将 点 和 标签 设置 为 不 同 的 颜色 。 
图 中 的 线 也 靠 得 非 常 近 ， 为 方便 阅读 ， 尝 试 逐条 线 交 替 使 用 不 同 的 颜色 显示 。 使 用 参数 
col = c("darkblue","dodgerblue") 可 做 到 这 一 点 。 用 lcolor = "gray90" 将 水 平 参考 线 设 
置 成 不 同 的 颜色 。 




















循环 参数 
许多 及 函数 循环 (recycle) 使 用 参数 。 这 意味 着 ， 如 果 向 量 中 没有 足够 的 项 ，R 将 重 
复 使 用 项 。 因 此 ， 绘 制图 4-4 时 ， 参 数 coL = c("darkblue","dodgerblue") 应 用 于 50 
个 州 。 因 为 只 指定 了 两 种 颜色 ， 所 以 当 及 需要 为 第 三 个 州 添加 颜色 时 ， 它 会 返回 使 用 
第 一 种 颜色 ， 以 此 类 推 ， 直 到 所 有 州都 有 颜色 。 参 数 col 可 以 包含 任意 数量 的 颜色 。 
如 果 有 50 种 或 更 多 的 颜色 ，R 将 使 用 前 50 种 颜色 。 如 果 颜 色 种 类 是 少 于 50 的 任意 
数 ， 那 么 及 会 重复 ， 直 到 每 个 州 有 一 种 颜色 。 























使 用 下 面 的 命令 可 以 查看 有 哪些 可 用 的 颜色 : 








> demo(colors) 
获得 颜色 名 称 列表 的 命令 如 下 : 


> colors() 





附录 B 包含 一 个 颜色 表 ， 以 及 创建 图 表 的 R 代码 。 如 果 需 要 ， 可 以 打印 一 份 。 互 联网 上 有 
两 个 不 错 的 RR 颜色 图 表 ， 可 以 访问 http://www.stat.columbia.edu/~tzheng/files/Rcolor.pdf 和 
http://research.stowers-institute.org/efg/R/Color/Chart/ 查看 。 











图 的 标题 越 大 越 突 出 ， 所 以 添加 cex.main = 2， 即 把 主 标题 放大 一 倍 。 完 整 的 命令 如 下 : 


> dotchart(data2$Murder, Labels = row.names(data2), 
cex = .6, main = "Murder arrests by state, 1973", 
xlab = "Murder arrests per 100,000 population", 
pch = 19, col = c("darkblue","dodgerblue"), 
lcolor = "gray90", 
cex.main = 2, cex.lab = 1.5) 


结果 如 图 4-4 所 示 。 
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有 


图 4-4: 添加 了 颜色 的 








练习 4-1 


谋杀 逮捕 率 的 点 图 





为 了 理解 为 什么 给 图 4-2 中 的 图 添加 参数 cex， 尝 试 不 带 该 参数 的 dotchart() 命令 ， 看 看 


会 发 生 什么 。 


练习 4-2 


用 Nimrod 数据 集中 的 变量 














time 绘制 点 图 。 请 记 住 ， 要 先 使 用 Load() 命令 来 加 载 数据 。 








点 图 
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5.1 箱 线 图 


有 时 ， 看 一 组 数字 的 摘要 信息 或 许 比 看 数字 本 身 更 有 帮助 。 有 一 种 图 通过 按照 定义 好 的 数 
字 范 围 将 数据 分 组 实现 了 这 一 点 ， 这 就 是 箱 线 图 (box plot)。 我 们 将 用 一 个 相对 较 大 的 数 





据 集 试 着 绘制 箱 线 图 。 前 面 几 种 类 型 的 图 对 于 该 数据 集 并 不 是 非常 合适 。 
nlme 包 中 有 一 些 有 趣 的 数据 集 ， 获 取 并 加 载 该 包 的 代码 如 下 : 


> install.packages("nlme") 
> library(nlme) 





下 面 看 看 MathAchieve 数据 集 。 超 过 7000 行 数据 ， 这 远 远 大 于 我 们 之 前 处 至 














果 想 研讨 MathAch 得 分 的 分 布 ， 这 么 大 的 数据 量 会 给 我 们 造成 什么 问题 ?让 我 们 看 看 用 带 





状 图 呈现 该 数据 的 情况 。 


在 生成 图 5-1 及 后 面 许多 例子 的 代码 中 ，par() 中 使 用 了 参数 mfrow， 作 用 是 在 一 页 内 显示 


的 数据 集 。 如 








多 个 图 形 。 格 式 为 mfrow = c(i,j)， 其 中 ,i 是 图 的 行 数 ，j 是 图 的 列 数 。 代 码 如 下 : 














# 图 5-1 
library(nlme) 
par(mfrow=c(2,1)) # 设置 一 图 位 于 另 一 图 之 上 :两 行 /一 列 




















stripchart(MathAchieveSMathAch, method = "jitter", 
main = "a. Math Ach Scores, 
pch = '19'", xlab = "Scores", pch = "19") 


50 


stripchart(MathAchieveSMathAch, method = "jitter", 





main = "b. Math Ach Scores, 
pch = '.'", xlab = "Scores", pch = ".") 
a. 数学 成 绩 ，pch="19" 











0 5 10 15 20 
分 数 
b. 数学 成 绩 ，pch=" ." 
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图 5-1: 数学 成 绩 的 带 状 图 


这 两 个 带 状 图 展示 了 使 用 图 3-4 中 图 
小 符号 的 结果 (如 图 5-1b 所 示 )。 即 便 如 此 ， 医 


形 符号 的 结果 (如 图 5-1a PR), 






















































































形 还 是 很 密集 。 有 太 多 的 点 ， 所 以 很 难 


以 及 使 用 另 一 种 较 




















判断 分 布 的 形状 。 中 心 在 哪里 ? 或 许 在 约 为 10 的 地 方 ， 或 者 稍微 高 一 点 ?分 布 有 点 偏锋 
(skewed)， 还 是 左边 密度 较 低 ?有 多 少 个 极 值 点 ? 不幸 的 是 ， 帮 助 文件 没有 给 出 参考 。 对 
数学 考试 成 绩 做 一 些 了 解 是 很 有 必要 的 ， 因 为 有 很 多 分 数 低 于 零 分 。 

也 许 一 种 不 同类 型 的 图 会 揭示 更 多 信息 。 箱 线 图 的 图 形 显示 了 几 个 关键 的 测量 ， 它 们 在 带 
状 图 中 是 不 明显 的 。 首 先 ， 让 我 们 用 下 面 的 代码 绘制 一 些 箱 线 图 。 注 意 ， 这 次 参数 mfrow 























Ba 





在 页 面 上 创建 了 一 个 不 同 的 一 行 两 列 的 布局 
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# 图 5-2 
library(nlme) 
par(mfrow = c(1,2)) # 两 图 并 排 :一 行 ,两 列 























boxpLot(MathAchieve$MathAch, 
main = "Math Achievement Scores", ylab = "Scores") 


boxplot(MathAchievesSES, 
main = "Socioeconomic Status", ylab = "SES score") 








1X FHL LPR A) & A A (box-and-whiskers plot), ， 如 图 5-2 所 示 ， 中 间 的 黑 线 代表 中 位 数 
(median) ， 该 点 将 分 数 一 分 为 二 ,一 半 较 低 ， 一 半 较 高 。 由 图 可 知 ， 中 位 数 约 为 13。 描 
述 中 位 数 还 有 其 他 方法 ， 例 如 第 50 个 百 分 位 (50th percentile) ， 该 点 处 50% 的 分 数 较 
低 ， 或 是 第 二 个 四 分 位 (second quartile) ， 该 点 处 二 分 之 一 的 分 数 较 低 。 盒 子 下 面 的 边 
为 第 一 个 四 分 位 (first quartile) ， 该 点 处 四 分 之 一 〈 即 25%) 的 分 数 较 低 。 盒 子 上 面 的 边 
是 第 三 个 四 分 位 (third quartile) ， 该 点 处 四 分 之 三 〈 即 75%) 的 分 数 较 低 。 从 盒子 垂直 
出 来 的 线 为 “胡须 ”， 如 果 点 不 超过 四 分 位 差 (interquartile range， 即 第 一 个 和 第 三 个 四 
分 位 数 之 间 的 差距 ) 的 1.5 倍 ， 须 可 达到 最 高 点 和 最 低 点 。 如 果 点 超出 须 的话 ， 那 么 点 
呈现 为 小 圆圈 。 
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5-2: 数学 成 绩 和 SES 得 分 的 箱 线 图 
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一 点 。 


SES (社会 经 济 地 位 ) 是 数据 集中 的 另 一 个 变量 ， 
OLE 5-2 AB) 和 数学 成 绩 的 箱 线 图 ， 在 SES K 























图 5-2 显示 了 数学 成 绩 的 分 布 几乎 是 对 称 的 ， 但 略 偏向 于 较 低 分 数 ， 也 就 是 说 ， 下 须 稍 长 


究 它 是 很 有 必要 的 。 比 较 其 箱 线 图 
中 有 几 个 点 超出 了 胡须 。 仔 细 研 究 ， 极 








端 值 总 是 会 预示 一 些 关 于 所 研究 变量 和 数据 准确 性 的 问题 。 你 可 能 想 检查 极端 值 ， 以 确保 
数据 已 输入 正确 。 如 果 是 这 样 的 话 ， 也 许 更 应 该 查阅 关于 SES 测量 的 文献 中 有 关 极 值 出 现 
的 原因 ， 并 思考 为 研究 选取 的 样本 的 性 质 。 





让 我 们 回 到 数学 成 绩 。 把 样本 分 成 更 小 的 组 来 比较 考试 成 绩 ， 这 样 可 能 会 有 局 发作 用。 





Mathach 被 拆 分 为 多 个 组 ， 





使 每 张 图 的 x 轴 上 有 一 个 标签 ， 表 明生 成 此 





生成 的 箱 线 图 如 图 5-3 所 示 。par() 函数 通过 给 参数 mfrow 传递 
一 个 表示 两 行 和 两 列 的 向 量 ， 来 设置 一 页 显示 四 张 











图 。 通 过 参数 sub = 'text to appear', 


图 的 命令 。 





a. 少数 民族 组 的 箱 线 图 
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男性 人 数 











T 
少数 民族 


boxplot(MathAch~Minority) 


c. 根据 少数 民族 、 性 别 、 盒 子 
大 小 区 分 的 箱 线 图 


女性 人 数 


boxplot(MathAch ~ Minority * Sex) 
varwidth=TRUE)) 


20 


0 5 10 


20 


0 5 10 


b. 根据 性 别 区 分 少数 民族 组 的 箱 线 图 














男性 人 数 女性 人 数 


boxplot(MathAch ~ Minority*Sex) 


d. 同 图 c， 增 加 颜色 区 分 








男性 人 数 女性 人 数 





boxplot(MathAch ~ Minority * Sex 
varwidth=TRUE,col=c("red","blue")) 








图 5-3: 逐步 细 化 的 图 之 间 的 


比较 
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生成 图 5-3 的 代码 如 下 : 

















# 图 5-3, 即 4 张 图 
par(mfrow=c(2,2)) # 页 面 设置 为 2 行 ,每 行 2 张 医 
attach(MathAchieve) 


boxplot(MathAch ~ Minority, xlab = "boxplot(MathAch~Minority)", 
main = "a. Math by Minority", cex = .4) 


boxpLot(MathAch~Minority*Sex, 
xlab = "boxplot(MathAch ~ Minority*Sex)", 
main = "b. Math by Min & Sex", cex = .4) 


boxplot(MathAch ~ Minority * Sex, 
xlab = "boxplot(MathAch ~ Minority * Sex)", 
sub = 'varwidth=TRUE))', varwidth = TRUE, 
main = "c. By Min & Sex, width~size", cex = .4) 


boxplot(MathAch ~ Minority*Sex, 
xlab = 'boxplot(MathAch ~ Minority * Sex', 
varwidth = TRUE, col = c("red","blue"), 
main = "d. Same as c. plus color", 
cex = .4, sub = 'varwidth = TRUE, 
col = c("red","blue"))') 

















下 面 来 研究 这 四 张 图 。 图 5-3a 中 ， 一 个 是 非 少数 民族 学 生 的 箱 线 图 ， 另 一 个 是 少数 民族 学 
生 的 箱 线 图 。 由 图 可 知 ， 虽 然 非 少数 民族 学 生得 分 的 中 位 数 和 四 分 位 数 较 高 ， 但 两 组 的 最 
高 分 和 最 低 分 相同 。 图 5-3b 中 ， 少 数 民 族 组 又 根据 性 别 进一步 分 组 。 我 们 看 到 ， 不 仅 少 数 
民族 所 有 性 别 的 数学 成 绩 均 较 低 ， 而 且 非 少数 民族 和 少数 民族 女性 的 成 绩 均 较 低 。 图 5-3c 
和 图 5-3d 都 是 图 5-3b 的 改进 版 。 在 这 些 图 中 ， 每 个 盒子 的 宽度 与 它 所 代表 的 分 组 的 大 小 
有 关 。 可 以 看 出 ， 较 少 的 学 生 是 少数 民族 ， 且 在 少数 民族 和 非 少 数 民族 分 组 中 ， 各 组 的 男 
性 均 比 女性 少 。 图 5-3d 运用 色彩 使 分 组 更 容易 区 分 。 颜 色 向 量 仅 指定 两 种 颜色 ， 这 两 种 颜 
色 赋 给 前 两 个 盒子 图 ， 然 后 将 相同 的 两 种 颜色 循环 赋 给 后 面 的 两 个 盒子 图 。 这 样 循环 的 效 
果 是 非 少数 民族 男性 和 女性 为 浅 灰 色 ， 少 数 民族 的 男性 和 女性 为 深 灰 色 。( 如 我 们 在 前 一 
章 所 看 到 的 ，R 循环 使 用 任何 不 够 长 的 向 量 以 便 完 成 给 定 的 任务 。) 


5.2 ”再 次 访问 Ntmrod 
现在 是 重 回 Nimrod 数据 集 的 好 时 候 。 我 们 可 以 用 箱 线 图 来 研究 用 各 种 乐器 及 业余 与 专业 剧 
团 的 表演 时 间 的 分 布 情况 。 此 外 ， 可 以 看 到 一 个 前 面 未 提 及 的 重要 信息 。 让 我 们 从 time 的 
箱 线 图 开始 ， 按 level 和 medium 分 组 ， 代 码 如 下 : 

# 图 5-4a, 首 先 必须 加 载 Nimrod 

# Load("Nimrod.rda") / 见 第 1 章 

attach(Nimrod) 

par(mfrow=c(2,1)) # 图 片 在 同一 页 面 中 展示 / 两 行 一 列 


boxplot(time ~ level * medium, 
main = "a. Performance time by level and medium") 








pas 
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清楚 。 由 于 专业 


吗 ? 这 一 点 明显 


结果 如 图 5-4a 所 示 ， 各 组 有 相当 大 的 变化 。 除 了 铜 管 乐 队 以 外 ， 专 业 团 体 往往 比 业余 团体 
演奏 的 速度 更 慢 。 











在 该 图 的 下 一 个 版 本 中 ， 用 颜色 突出 业余 与 专业 的 状态 差异 ， 可 能 会 更 
团体 演奏 的 速度 一 贯 较 慢 ， 这 种 差异 可 以 表明 “正确 ”的 节奏 是 比较 慢 的 


直 得 思 




















a， 根 据 乐 器 和 等 级 区 分 的 演奏 时 间 
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b. 根据 乐器 和 等 级 区 分 的 演奏 时 间 ， 有 参考 线 
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图 5-4: 根据 乐器 和 等 级 绘制 的 Nimrod 演奏 时 间 图 
现在 是 时 候 揭 开 数据 集中 秘密 编码 的 表演 者 的 身份 了 。 


“EE” 正 是 爱德华 埃 尔 加 (Edward Elgar)， 是 作曲 家 本 人 ! 尽管 在 样本 中 有 训练 有 素 的 
专业 音乐 家 的 精 潢 表演 ， 我 们 仍 可 以 合理 地 主张 ， 关 于 该 作品 的 合适 的 节奏 ， 作 曲 家 的 演 


奏 应 该 更 权威 。 当 然 ， 我 们 只 有 作曲 家 的 一 次 表演 的 数据 ， 并 不 知道 他 每 一 次 演奏 是 否 都 
是 这 个 节奏 ， 或 接近 这 个 节奏 。 尽 管 如 此 ， 与 图 上 的 其 他 所 有 组 对 比 ， 也 可 能 会 揭示 爱 
德 华 的 节奏 。 为 此 ， 可 以 添加 一 个 参考 线 (reference line)。 参 考 一 开始 的 电子 表格 ( 见 表 
































1-4) ， 发 现 爱 德 华 的 表演 时 长 为 186。 在 186 的 地 方 加 一 条 横 穿 所 有 箱子 的 水 平 线 ， 以 使 
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比较 每 个 作曲 家 的 表演 时 间 变 得 更 加 容易 。 可 以 用 abline() 命令 实现 这 个 操作 ， 它 将 立即 
在 如 下 命令 之 前 生成 的 图 上 添加 一 条 线 : 





# 图 5-4b 
boxplot(time ~ level * medium, 
main = "b. Performance time by level and medium with reference 


line", col = c("white", "Light blue")) 
abline(h = 186, lty = "dotted") 
detach(Nimrod) 





在 图 上 添加 线 


可 以 使 用 abline() 函数 来 给 图 添加 一 条 或 多 条 参考 线 (可 以 根据 需要 多 次 使 用 该 函 
数 ， 在 一 张 图 上 添加 多 条 线 ) 。 此 函数 只 能 绘制 直线 ， 绘制 曲 线 采 用 的 是 不 同 的 函数 。 
线 可 以 通过 它 的 截 距 和 斜率 定义 (如果 你 不 记得 高 中 数学 中 堆 距 和 斜率 的 含义 ， 在 
第 12 章 有 简要 回顾 ) ， 或 者 像 在 Nimrod 的 例子 中 那样 ， 只 给 出 了 RERA- AKER 
(h = 186， 即 time = 186)。 在 适当 的 地 方 ， 可 能 用 v = 而 不 是 h 来 请 求 绘制 垂直 
线 。 可 以 调用 各 种 类 型 的 线 ， 比 如 本 例 中 使 用 Lty="dotted"。 获 取 更 多 信息 ， 请 输 
入 ?abLine 或 者 ?par 查询 。 











图 5-4b 表明 ， 业 余音 乐 家 比 专业 音乐 家 更 认同 作曲 家 的 节奏 。 这 是 一 个 令 人 惊讶 的 结果 ， 
会 生成 一 张 令 人 兴奋 的 图 。 当 然 ， 我 们 只 有 一 个 小 的 表演 样本 。 如 果 我 们 的 目的 是 概括 专 
业 的 和 业余 的 表演 ， 那 么 目前 的 样本 是 不 够 的 。 然 而 ， 我 们 只 是 在 探索 可 能 的 关系 ， 并 假 
设 可 能 希望 进一步 调查 研究 ， 这 种 情况 下 数据 就 足够 了 。 


5.3 美化 数据 


图 5-4b 完成 了 展示 time 与 level 及 mediun 关系 的 基本 工作 。 如 果 这 就 是 你 想 要 的 ， 可 以 
直接 跳 到 本 章 结尾 的 练习 。 之 后 ， 当 你 感觉 可 以 更 自如 地 编写 R 代码 ， 并 想 要 一 个 更 具 吸 
引力 的 图 形 时 ， 可 以 回 到 本 节 。 
































我 们 可 以 让 Nimrod 的 图 更 有 吸引 力 ， 也 更 容易 理解 。 图 5-4b 最 令 人 不 满意 的 一 点 是 乐器 
组 的 名 称 ， 例 如 “a.bb"。 像 “业余 铜 管 乐 队 ”(amateur brass band) 这 样 较 长 的 名 字 ， 在 
有 限 的 空间 里 根本 就 不 适合 。 解 决 这 个 问题 的 方法 之 一 是 水 平 放置 条 (bar) ， 在 空白 处 为 
每 个 组 名 空 出 一 行 。 同 时 为 乐器 分 组 提供 有 意义 的 名 称 ， 并 在 图 上 放 一 些 文本 。 新 图 呈现 
在 图 5-5 中 。 
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图 5-5: 根据 medium 和 level 改进 的 Nimrod 演奏 时 间 图 ， 将 其 与 图 5-4 对 比 
你 同意 图 5-5 是 图 5-4b 的 改进 版 吗 ? 如 果 同 意 ， 我 们 来 看 一 下 怎么 改进 。 





生成 新 图 的 脚本 如 下 。 有 几 个 命令 被 空白 行 分 隔 开 ， 以 使 其 更 容易 阅读 。 每 个 命令 上 方 的 
注释 ， 解释 了 参数 的 含义 : 


# 图 5-5 的 脚本 
attach(Nimrod) 














# par() 设置 背景 色 、 前 景色 、 坐 标 轴 颜 色 、 

# 文本 大 小 (cex) .水 平展 示 、 

# y 轴 (Las=1) 的 文本 ,以 及 页 边 空白 (mar)。 对 于 默认 边 距 来 说 ,图 像 太 大 。 
# 关于 以 上 参数 ,输入 ?par 可 获得 更 多 信息 。 





par(bg = "white", fg = "white", 
col.axis = "gray47", mar = c(7,8,5,4), 
cex = .65, las = 1) 
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boxplot() 确定 公式 (time ~ level * medium), 

使 图 水 平 扩展 ， 

为 盒 边界 和 盒 (coL) 设 置 颜色 ， 

# 创建 标题 (maiin,xlab)， 

# 为 组 合 Level*medium 创 建 名 字 (names) 和 名 字 大 小 (cex.names)。 
# 一 个 名 字 为 ""， 

# 因为 没有 "amateur organ" 这 一 类 别 。 














tH # 











boxplot(time ~ level * medium, horizontal = TRUE, 
border = "cadetblue", 
main="Performance Times of Elgar's Nimrod", 
col = c("deepskyblue", "peachpuff4"), 
xlab = "Time in seconds", 
Names = c("brass band","brass band","concert 
band", "concert band","", "organ " 
cex.names = .4) 


» "orchestra","orchestra"), 


# abLine() 在 时 间 为 186 秒 处 放 垂直 线 来 展示 
# 由 爱德华 指挥 的 演奏 ， 线 的 类 型 (Lty ) 为 点 线 ， 
# 且 颜 色 (col) 为 黑色 。 











abline(v = 186, lty = "dotted", col = "black") 


# legend() 选择 图 例 的 文本 .颜色 和 在 图 片上 的 位 置 。 
# 图 例 中 ,专业 组 显示 为 桃色 ,业余 组 显示 为 深 天 蓝 色 。 
































legend("right", title = "Level", title.col = "black", 
c("Professional","Amateur"), 
text.col = c("peachpuff4","deepskyblue"), 
text.font = 2, cex = 1.2) 
# mtext() 将 文本 放 在 用 户 指定 的 位 置 
mtext(" Elgar himself - - >", side = 3, 
line = -2, adj = 0, 
cex = .7, col = "black") 











# axis() 修 改 了 x 轴 (1) ,设置 了 颜色 .长度 和 刻度 线 
axis(1, col = "cadetblue", at = c(160,200,250,300)) 


detach(Nimrod) 








符号 是 什么 意思 ? legend() 函数 
图 例 (legend) 是 图 上 的 一 个 标记 ， 表 明 特定 符号 或 颜色 的 含义 。 例 如 在 图 5-5 中 ， 厂 
边 的 图 例 规定 神色 (R 的 peachpuft4， 书 中 显示 为 深 友 色 ) 金子 代表 专业 人 士 的 合 
AN, PEERI (HPARKE) 代表 业余 团体 的 演奏 时 间 。legend() 函数 允许 
在 图 上 添加 位 置 说 明 、 特 定 文字 、 颜 色 、 字 体 等 。 欲 知 更 多 信息 ， 请 输入 ?Legend。 








通过 图 5-4 和 图 5-5 可知， 使 用 及 可 以 生成 基本 的 图 表 ， 来 简单 快速 地 探索 数据 (通常 用 
一 行 代码 ) 。 如 果 需 要 很 漂亮 且 用 于 演示 的 图 ，R 也 能 实现 (但 可 能 要 做 更 多 工作 )。 















































5.3.1 练习 5-1 

正如 前 文 所 述 ， 关 联 不 能 证 明 因果 关系 。 图 5-3 中 ， 数 学 成 绩 与 少数 民族 状态 间 明 显 的 关 
系 ， 实 际 上 可 能 是 其 他 因素 的 函数 。 用 Minority 和 Sex 分 组 ， 对 变量 SES 进行 箱 线 图 分 
析 。 保 存 你 的 图 (关于 如 何 保存 图 ， 见 第 2 章 )， 以 便 在 以 后 的 分 析 中 使 用 。 使 用 字 处 理 
程序 ， 用 一 段 或 两 段 文 字 说 明 你 的 发 现 ， 并 插入 图 说 明 你 的 观点 。 在 稍 后 的 练习 中 ， 我 们 
将 直接 研究 数学 成 绩 和 SES 之 间 的 关系 。 





























5.3.2 练习 5-2 

比较 两 个 或 两 个 以 上 分 组 时 ， 一 种 可 替代 箱 线 图 的 图 形 是 Engelmann-Hecker-Plot (EH 
图 )。 比 较 两 个 图 : 一 个 是 将 cyl 作为 分 组 变量 的 、 为 mtcars 数据 集中 的 变量 mpg 制作 的 
HAR (参见 练习 3-1) ， 另 一 个 是 用 plotrix 包 中 的 ehplot() 函数 创建 的 EH 图 。EH 图 
有 哪些 优点 ? 箱 线 图 有 哪些 优点 ? 
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一 些 
的 时 
包含 


人 可 能 会 认为 这 简短 的 一 章 是 一 种 “怀旧 ”， 因 为 它 描述 了 一 种 在 用 纸 和 笔 分 析 数 据 
代 非 常 重要 的 图 。 在 现代 的 演示 中 ， 你 可 能 不 会 看 到 很 多 这 类 图 的 例子 。 之 所 以 把 它 
在 本 书 里 ， 是 因为 它 有 助 于 你 更 好 地 理解 直方 图 (第 7 章 的 主题 )。 也 许 你 会 发 现 它 


























在 数据 检验 的 探索 阶段 也 是 有 帮助 的 。 如 果 你 已 经 了 解 了 直方 图 ， 可 以 跳 过 本 章 ， 不 必 担 
心 错 过 必要 的 资料 。 


multcomp 包 中 的 sbp 数据 集 包 括 变 量 sbp (69 名 患者 的 收缩 压 ) 以 及 每 个 人 的 性 别 和 年 龄 。 
我 们 可 以 用 茎 叶 图 (stem-and-leaf plot) 观察 血压 的 分 布 。 这 种 类 型 的 图 不 仅 可 以 揭示 数据 


分 布 
EA 
在 适 
数据 








的 大 致 形状 ， 还 可 以 显示 每 个 数据 点 的 〈 四 侈 五 和 人) 值 。 

图 按照 从 低 到 高 的 顺序 排列 所 有 的 值 。 然 后 ， 为 同一 范围 内 的 所 有 值 保 留 一 行 ， 并 且 
当 的 行 上 写 下 每 个 数值 的 最 后 一 位 有 效 数字 。 可 以 使 用 基础 R 中 的 stem() 命令 为 sbp 
集 里 的 变量 sbp 创建 一 个 茎 叶 图 。 这 种 类 型 的 展示 ， 有 时 也 被 称 为 文本 显示 (textual 




















display)， 它 出 现在 R 控制 台 而 不 是 图 形 窗口 中 。 生 成 图 6-1 的 代码 如 下 : 


图 6- 


血压 
来 看 
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> library(multcomp) 
> stem(sbp$sbp) 


1 显示 了 数据 集中 所 有 的 血压 。 左 边 的 列 (包括 数字 11、12、13 等 ) BAW “A”. 
都 是 三 位 数 ， 所 以 “ 鞋 ”包含 前 两 位 数字 ,“ 叶 ”包含 每 个 血压 值 的 最 后 一 位 数字 。 
第 一 行 ， 第 一 个 “ 茎 ”代表 的 数字 以 11 开头 且 树 叶 上 的 数字 是 0、4 和 6。 因 此 ， 第 








一 行 代表 的 数据 有 110, 114 和 116。 下 一 行 “ 葵 ”包括 数字 120, 120, 124, 124, 124, 
125, 128 和 128。 我 们 可 以 看 到 ， 收 缩 压 有 两 个 170 和 四 个 138， 但 只 有 一 个 185。 











The decimal point is 1 digit(s) to the right of the | 


11 | 046 

12 | 00444588 

13 | 000244568889 
14 | 002224444589 
15 | 00234466788889 
16 | 00224589 

17 | 002244566 

18 | 045 

















B 6-1: 变量 sbp HZ 





由 图 6-1 可 知 ， 数 据 的 分 布 是 近似 对 称 的 。 低 血压 和 高 血压 的 数量 大 致 相同 ， 而 且 大 量 
的 血压 分 布 在 中 心 附近 (CB 130~160 的 血压 )。 在 这 个 图 中 ,“ 茎 ”的 宽度 大 约 是 10 (fil 
如 110~119、120~129)。 如 果 “ 茎 ”的 宽度 改变 了 ， 图 的 形状 很 可 能 也 会 改变 。 可 以 为 
stem() 命令 添加 男 一 个 参数 ， 来 改变 茎 杆 的 宽度 。 参 数 scale = x 控制 每 个 “ 茎 ”的 宽度 ， 
其 中 x 是 一 个 正 数 。 例 如 ， 试 试 如 下 命令 : 









































> stem(sbp$sbp, scale = 2) 


结果 如 图 6-2 所 示 ， 该 图 的 长 度 是 之 前 的 两 倍 。 每 个 茎 的 宽度 减 半 ( 即 宽 度 为 5 而 不 是 
10)， 而 蕉 的 数量 变 成 之 前 的 两 倍 。 大 体 的 分 布 形状 没有 改变 ， 但 中 心 略 有 下 降 ， 大 约 在 
145 处 ， 之 前 我 们 并 设 发 现 这 一 点 。 在 一 些 分 布 中 ， 宽 度 的 改变 会 显著 改变 形状 。 在 直方 
图 中 ， 叶 的 宽度 被 称 为 区 间 (bin) 尺寸 。 也 许 茎 叶 图 看 起 来 没有 其 他 一 些 有 好 看 形状 和 
颜色 的 图 吸引 人 ， 但 此 类 图 显示 了 所 研究 向 量 中 的 每 个 数字 的 精确 值 ， 这 可 以 帮助 理解 数 
据 ， 也 有 助 于 对 图 的 修改 。 





















































The decimal point is 1 digit(s) to the right of the | 


11 | 04 
1116 

12 | 00444 

12 | 588 

13 | 000244 
13 | 568889 
14 | 002224444 
14 | 589 

15 | 002344 
15 | 66788889 
16 | 00224 

16 | 589 

17 | 002244 
17 | 566 

18 | 04 
1815 

















图 6-2: sbp 的 茎 叶 图 ， 芭 长 扩大 一 倍 
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茎 叶 图 最 适合 中 小 规模 的 数据 集 。 如 果 一 个 茎 中 有 太 多 的 数据 ， 它 们 将 会 超出 页 面 ! 当 这 
种 情况 发 生 时 ， 我 们 就 失去 了 对 真实 的 分 布 形状 的 感知 。 解 决 该 问题 的 方法 之 一 是 加 大 
scate， 让 叶子 变 多 ， 而 每 个 叶子 中 的 数据 变 少 。 有 时 这 种 策略 也 帮助 不 大 。 你 也 许 不 会 将 
这 种 类 型 的 图 用 在 最 后 的 展示 中 ， 但 可 能 会 发 现 这 个 优雅 的 工具 有 助 于 理解 直方 图 ， 而 且 
在 项 目的 探索 阶段 它 是 有 启发 作用 的 。 





























练习 6-1 
亲自 为 血压 数据 选择 一 个 合适 的 scate， 所 选 数字 不 需要 是 整数 ， 也 可 以 比 1 小 。 尝 试用 
前 面 章节 中 研讨 的 数据 集 执行 相同 的 分 析 。 

















练习 6-2 

在 同一 张 图 中 对 比 两 个 变量 的 分 布 有 时 很 有 帮助 。 可 以 用 aplpack 包 (需要 安装 并 加 载 该 
包 ) 中 的 stem.leaf() 国 数 绘制 两 个 背 对 背 的 葵 叶 图 。 用 trees 数据 集中 的 变量 Height 和 
Volume 执行 该 操作 。 可 以 看 到 预期 的 结果 吗 ? 为 什么 有 或 为 什么 没有 ? (提示 : 每 个 变量 
的 测量 单位 是 什么 ?) 使 用 car 包 中 Baumann 数据 集 里 的 pretest.1 和 post.test.1 尝试 绘 
制 相同 的 图 。 后 一 个 测试 比 之 前 的 测试 是 高 还 是 低 ? 这 是 一 个 有 帮助 的 工具 吗 ? 
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直方 图 





7.1 简单 直方 图 


我 们 来 重 温 一 下 multcomp 包 中 的 sbp 数据 集 。 对 于 分 析 血 压 数据 ， 一 个 有 用 的 工具 就 是 
我 们 熟知 的 直方 图 (histogram)。 在 这 种 类 型 的 图 中 ， 通 常 把 所 要 研究 的 数值 型 变量 (如 
sbp) 的 值 的 范围 放 在 水 平 标尺 (x 轴 ) 上 。 这 个 范围 被 分 成 几 部 分 ， 称 为 区 间 (bin), HE 
直 标尺 (y 轴 ) 显示 每 个 区 间 中 落 入 多 少 观测 值 。 











图 7-1 是 通过 调用 4 次 hist() 国 数 生 成 的 ， 每 调用 一 次 生成 一 张 图 。 当 然 ， 你 可 以 在 控制 
台 输 入 儿 行 命令 来 完成 这 一 操作 。 基 本 的 命令 仅 有 hist(sbp)。 
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a. R 决 定 区 间 大 小 b. 选择 4 个 特殊 断 点 
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图 7-1: sbp 数据 集中 变量 sbp 的 直方 图 ， 比 较 不 同 区 间 中 数据 的 效果 
生成 图 7-1 的 脚本 如 下 : 

















# 图 7-1 的 脚本 

library(multcomp) 

attach(sbp) 

par(mfrow = c(2,2)) 

hist(sbp, main = "a. Let R decide bin sizes") 

hist(sbp, main = "b. Choose 4 particular breakpoints", 
breaks = c(110,135,160,185)) 

hist(sbp, main = "c. Suggest number of breakpoints", 
breaks = 30) 

hist(sbp, main = "d. Set first, last and increment", 
breaks = seq(110,190,15)) 

detach(sbp) 





这 段 代码 把 区 间 数 量 的 选择 留 给 了 R， 这 通常 是 一 个 很 好 的 决定 。 此 外 ， 每 个 命令 行 添 加 
参数 main =， 为 特定 直方 图 生成 标题 。 最 后 ， 除 了 第 一 张 图 ， 参 数 breaks = 表明 使 用 区 间 


























的 数量 和 /或 区 间 的 宽度 。 注 意 ， 在 此 处 创建 的 所 有 图 形 中 ， 区 间 的 大 小 都 一 样 ， 换 句 话 


说 ， 条 的 宽度 都 是 一 样 的 。 这 一 点 是 直方 图 的 惯例 ， 不 这 样 做 的 话 就 很 难 解释 。 





可 以 使 用 参数 breaks 执行 如 下 操作 。 











。 在 条 之 间 提 供 许多 断 点 ， 例 如 breaks = 30, 
































。 定义 详细 的 断 点 ， 例 如 breaks = c(110,135,160,185) 。 
。 给 出 第 一 个 值 、 最 后 一 个 值 以 及 增 量 ， 例 如 breaks = seq(110,190,15), 
。 提供 一 系列 数字 的 任意 其 他 有 效 规格 ， 例 如 breaks = c(110:190), 





sbp 中 的 最 小 值 是 110。 


























不 同 的 结论 。 














使 用 breaks 时 ， 要 从 疝 量 中 的 最 小 值 开始 ， 否 则 ， 会 得 到 错误 信息 。 在 前 面 的 例子 中 ， 














图 7-1 是 sbp 数据 的 直方 图 的 几 个 例子 。 它 们 都 是 关于 相同 变量 的 直方 图 ， 但 看 起 来 完全 
不 同 ， 这 是 因为 图 中 的 区 间 数 量 不 同 。 关 于 sbp 得 分 的 分 布 ， 从 不 同 的 直方 图 中 可 能 得 出 

















图 7-1a 给 人 的 印象 是 ， 许 多 患者 的 sbp 分 数 约 为 150~160， 但 少量 患者 有 更 高 和 更 低 的 


分 数 。 此 外 ， 分 布 也 不 均匀 。 而 图 7-lb 给 人 的 印象 是 分 布 完全 对 称 ， 此 图 是 通过 使 用 参 








数 breaks = c(110,135,160,185) 创建 的 。 图 7-1c 是 通过 参数 breaks = 30 创建 的 。 相 比 图 








7-lb， 图 7-1lc 更 像 图 7-1a,， 但 它 比 其 他 两 张 图 























展示 了 更 多 细节 ， 它 也 更 不 稳定 ， 有 更 多 


剧烈 的 起 伏 。 图 7-1d 是 利用 参数 breaks = seq(110,190,15) 创建 的 ， 似 乎 和 图 7-1a 相像 ， 











晶 在 高 端 ( 近 180 处 ) 没有 显示 血压 的 大 幅 下 降 。 


图 7-1a 使 用 了 默认 的 区 间 数 ， 如 果 你 不 指定 一 个 值 ，R 就 选择 默认 的 区 间 数 。 相 比 图 
7-1b， 图 7-1a 的 分 辨 率 更 高 ， 它 有 更 多 的 条 ,外 














E 更 清晰 地 理解 数据 下 降 的 位 置 ， 但 清晰 程 











度 比 图 7-1c 差 。 综 观 所 有 的 直方 图 ， 看 起 来 缺乏 对 称 性 且 在 高 端 下 落 ， 这 两 个 重要 特征 下 
是 我 们 想 让 数据 展示 出 来 的 特点 。 在 这 个 例子 中 ， 上 默认 的 选项 ( 见 图 7-1a) 给 出 了 一 个 很 
好 的 结果 ， 事实 上 通常 但 并 不 总 是 如 此 。 练 习 7-1 就 是 一 个 反例 。 


你 可 以 控制 直方 图 中 区 间 的 数目 ， 但 没有 希望 的 那样 容易 。 如 果 指 定 了 break 的 数目 ， 如 
































图 7-1c 一 样 ， 这 只 是 作为 一 个 建议 。R 将 选择 

















一 个 可 能 接近 ， 但 符合 “漂亮 ”标准 的 数 


字 。 关 于 这 个 规则 的 更 多 信息 ， 请 输入 ?pretty 查询 。 




















可 以 给 hist() 命令 添加 许多 其 他 参数 。 甚 中 一 








些 将 体现 在 下 面 的 例子 中 ， 如 图 7-2 所 示 。 














例如 ，Las = 1 可 旋转 y 轴 上 的 数字 ， 使 它们 垂直 于 水 平 线 ，label = T 在 每 个 条 的 顶端 添 
加 频率 数 ，col="maroon" 设置 了 条 的 颜色 ， 参 数 xLab = 为 x 轴 提供 了 更 具 描 述 性 的 标签 。 


代码 如 下 : 


# 图 7-2 








hist(sbp, main = "sbp dataset", las = 1, label =T, 
col = "maroon", xlab = "Systolic blood pressure") 
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sbp 数 据 集 


频率 











收缩 压 





7-2: 带 有 附加 特征 的 直方 图 


7.2 ” 带 第 二 个 变量 的 直方 图 

有 了 时， 进行 比 利 用 简单 直方 图 更 深入 的 数据 研究 十 分 重要 。 例 如 ， 了 解 不 同性 别 的 人 
的 血压 分 布 是 相似 还 是 不 同 。 评 估 这 种 可 能 性 的 一 种 方法 是 使 用 堆 登 直方 图 (stacked 
histogram), sbp 数据 集 包 含 变量 gender ， 可 以 在 堆 芭 直方 图 中 使 用 性 别 区 分 图 7-1a 中 的 
每 个 条 ， 来 显示 有 多 少 观测 值 是 男性 的 ， 多 少 观测 值 是 女性 的 。 虽 然 hist() 函数 不 支持 这 
个 操作 ， 但 plotrix 包 中 提供 的 histstack() 函数 可 以 实现 ， 代 码 如 下 : 



































# 图 7-3 

library(plotrix) 

library(multcomp) 

histStack(sbp$sbp, z = sbp$gender, 
col=c("navy","skyblue"), 
main = "Systolic blood pressure by gender", 


xlab = "Systolic blood pressure", legend.pos = "topright") 


结果 如 图 7-3 所 示 。 
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按 性 别 区 分 收缩 压 

















120 140 160 180 








收缩 压 








7-3: 按 性 别 区 分 的 收缩 压 的 堆 功 直方 


堆 受 直方 图 易于 提供 很 多 有 用 的 信息 。 首 先 ， 用 浅 灰 色 表 示 的 女性 血压 的 分 布 一 目 了 然 。 
然而 ， 男 性 的 分 布 不 那么 容易 解释 : 因为 柱 形 条 的 底部 在 不 同 的 水 平 线 上 ， 很 难 比较 它们 
的 高 度 。 尽 管 如 此 ， 仍 可 看 出 男性 比 女性 的 血压 更 高 ， 反 之 亦 然 。 还 有 男 一 种 方式 来 呈现 
此 数据 ， 大 多 数 人 觉得 此 种 方式 更 容易 阅读 。 也 就 是 可 以 把 信息 分 成 并 排 或 一 上 一 下 的 两 
张 图 ， 而 不 是 把 所 有 的 信息 放 在 一 张 图 中 。 在 R 中 实现 这 个 需求 有 多 方法 ， 最 简单 的 方法 
之 一 是 使 用 RCndrMisc 包 中 的 Hist() 函数 ， 代 码 如 下 : 

# 图 7-4 

library(RcmdrMisc) 

library(multcomp) 

Hist(sbp$sbp, groups = sbp$gender, 


main = "Systolic blood pressure by gender", 
col = "navy ", xlab = "Systolic blood pressure") 
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结果 如 图 7-4 所 示 。 
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sbp$gender = male 
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图 7-4: 男性 (male) 和 女性 (female) 收缩 压 分 开展 示 的 直方 图 


图 7-4 更 清晰 地 显示 出 ， 男 性 不 仅 有 最 高 的 血压 ， 而 且 集中 在 高 端 。 对 于 数 
来 说 ，hist() 国 数 很 好 用 ， 但 对 于 数据 量 大 的 分 组 却 不 那么 方便 。 因 此 ， 我 1 

















用 lattice 包 。 








lattice 包 对 于 格子 图 (trellis graphic) 有 非常 好 的 展现 形式 ， 图 形 根据 观测 人 
分 ， 即 为 每 个 组 呈现 为 单独 的 图 形 。car 包 中 的 Salaries 数据 集 包 括 2008 一 2009 年 美国 
一 所 大 学 的 教师 9 个 月 的 工资 数据 。 收 集 数据 的 目的 为 了 研究 男女 工资 之 间 的 差异 。 我 们 
来 生成 一 组 直方 图 ， 为 每 个 等 级 (3 个 等 级 ) 和 性 别 (2 种 性 别 ) 的 组 合 ， 或 者 说 共 6 种 
组 合 ， 生 成 各 自 的 直方 图 。 首 先 ， 安 装 并 加 载 必 要 的 包 。 然 后 ， 查 看 数据 集中 提供 的 信 


























B 量 小 的 分 组 
门 可 以 转 为 使 








直 组 进行 划 






































变量 组 合 形成 的 组 后 紧 跟 竖 线 符 号 〈1)， 使 用 星 号 (*) 表示 跨 两 个 变量 。 
读 ， 可 以 很 容易 地 比较 男性 教师 和 女性 教师 的 工资 。 分 组 变量 的 顺序 是 很 重要 的 。 如 果 菇 




















倒 了 顺序 ， 就 会 导致 结果 图 不 方便 阅读 。 尝 试 以 下 代码 ; 








息 。 注 意 histogram() 命令 的 语法 稍微 不 同 ，Salaries$salary 变量 之 前 有 波浪 号 (~)。 由 














图 























7-5 非常 易 
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# 图 7-5 











install.packages("lattice") # 有 可 能 已 经 安装 了 


install.packages("car 
library(lattice) 
library(car) 
head(Salaries) 


rank discipline yrs.since.phd yrs.service sex 


1 Prof 
2 Prof 
3 AsstProf 
4 Prof 
5 Prof 
6 AssocProf 


B 


B 
B 
B 
B 
B 


19 


18 Male 
16 Male 
3 Male 
39 Male 
41 Male 
6 Male 


salary 
139750 
173200 

79750 
115000 
141500 

97000 


histogram(~ Salaries$salary | Salaries$rank * Salaries$sex, 
type = "count", main = "Faculty Salaries by Rank & Gender") 





根据 等 级 和 性 别 区 分 教师 的 工资 


50000 150000 





助理 教授 

















Count 














50000 150000 50000 150000 


Salaries$salary 








7-5: 分 组 直方 图 ， 使 用 lattice 包 中 的 histogram() 函数 生成 
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从 图 7-5 所 呈现 的 数据 中 ， 可 以 观察 出 许多 结果 。 首 先 ， 比 较 顶 部 显示 的 男性 数据 和 底部 
的 女性 数据 ， 可 以 看 出 ， 该 项 研究 中 男性 比 女性 多 出 很 多 。 其 次 ， 从 左 到 右 观看 直方 图 ， 
很 显然 ， 教 授 (最 高 等 级 ) 比 副 教授 或 助理 教授 更 多 。 最 后 ， 每 个 等 级 中 男性 和 女性 的 工 
资 分 布 有 相同 的 中 位 数 ， 但 在 教授 和 副教授 级 别 中 有 更 多 的 男性 处 于 工资 的 高 端 。 








7.2.1 练习 7-1 

考虑 来 自 SLeuth2 包 的 case0302 数据 集 。 不 指定 breaks 的 个 数 ， 绘 制 变量 Dioxin 的 直方 
图 。 接 下 来 ， 尝 试 以 几 种 不 同 的 方式 来 创建 各 种 尺寸 的 区 间 。 分 布 的 形状 看 起 来 有 变化 
吗 ? 再 看 看 Dioxin 的 带 状 图 ， 与 其 直方 图 比较 ， 它 会 告诉 你 什么 ? 

















7.2.2 练习 7-2 

有 时 ， 你 可 能 想 比较 两 个 变量 。 有 很 多 方法 可 以 实现 ， 一 种 方式 是 观看 它们 的 直方 图 。 如 
果 两 个 变量 都 由 同一 尺度 测量 ， 查 看 背 对 背 的 直方 图 也 许 会 给 我 们 启示。Hmisc 包 中 的 
histbackback() 函数 刚好 能 实现 这 个 目的 。 你 可 以 使 用 该 函数 研究 car 包 中 Burt 数据 集 里 
兄弟 智商 的 测量 值 间 的 关系 。 此 外 ， 也 可 以 比较 Salaries 数据 集中 男性 和 女性 的 工资 。 




















8.1 密度 估计 


在 科学 领域 中 ， 一 个 常见 的 问题 是 从 数据 样本 中 估计 出 一 个 数学 函数 ， 描 述 一 个 变量 〈 例 
如 前 面 两 章 中 sbp 例子 中 的 收缩 压 ) 取 某 个 值 的 相对 可 能 性 。 在 第 7 章 中 ， 我 们 试图 用 直 
方 图 对 这 样 的 图 做 了 粗略 估计 。 如 果 看 一 下 图 7-2 中 的 直方 图 ， 你 可 以 看 到 很 可 能 出 现 接 
VE 150 的 收缩 压 ， 但 大 约 110 的 收缩 压 却 不 太 可 能 出 现 。 描 述 给 定 值 (例如 某 个 血压 值 ) 
的 可 能 性 的 规则 或 公式 被 称 为 密度 函数 (density function). 

































































对 于 很 多 问题 来 说 ， 直 方 图 是 一 个 很 好 的 工具 ， 它 容易 理解 旦 易于 计算 。 然 而 ， 你 应 该 意 
识 到 它 也 有 缺点 。 许 多 函数 是 连续 的 (continuous)， 也 就 是 说 ， 函 数 可 以 取 一 定 范围 内 的 
任意 值 。 血 压 值 可 以 是 120、123 或 129.2, 但 直方 图 可 能 会 强制 所 有 这 些 值 在 同一 个 区 
间 (bin) 内 ， 从 而 使 所 有 值 都 取 120。( 在 图 7-2 中 ， 直 方 图 区 间 的 宽度 为 10， 那 么 所 有 
大 于 等 于 120 且 小 于 130 的 数值 会 在 同一 区 间 内 。) 也 就 是 说 ， 我 们 用 一 个 离散 (discrete) 
国 数 一 一 只 能 取 所 选 的 血压 值 一 一 来 估计 连续 的 密度 国 数 。 图 8-1a 中 的 核 密 度 图 (kernel 
density plot) 是 一 条 平滑 的 和 逼近 密度 函数 的 线 。 
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a. WHERE EA b， 直 方 图 + 核 密度 图 











= 
x o 
g o9 
O 
© 
oO 
© 
100 120 140 160 180 
N=69 带宽 = 7.13 sbp$sbp 
c， 直 方 图 + 核 密度 图 ，bw = 5 d， 直 方 图 + 核 密度 图 ，bw = 10 
0.020 
0.015 
其 
43 0.010 
0.005 
0.000 





sbp$sbp sbp$sbp 











图 8-1: 血压 的 核 密度 及 加 在 血压 直方 图 上 的 核 密度 


图 8-lb 是 由 R 的 density() 函数 生成 的 到 加 在 直方 图 上 的 密度 估计 。 可 以 看 到 ， 密 度 曲线 
有 时 会 高 于 直方 图 ， 有 时 会 低 于 直方 图 。 想 象 一 下 ， 取 几 个 相 邻 组 的 数值 的 加 权 平 均值 ， 
并 用 连接 这 些 平 均值 的 平滑 线 代 替 直 方 图 的 值 。 这 就 是 一 种 平滑 (smoothing), BI 8-1 中 
几 个 例子 的 脚本 如 下 : 


# 图 8-1 的 脚本 ;有 4 张 医 
library(multcomp) 
par(mfrow = c(2,2), cex.main =.9) 



























































# 图 8-1a 

eq = density(sbp$sbp) # 估量 sbp 的 密度 曲线 

plot(eq, xlim = c(100,190), 
main = "a. Systolic Blood Pressure Density Plot", 
lwd = 2) # 绘制 估量 





# 图 8-1b 
# 使 用 直方 图 来 估量 密度 
hist (sbp$sbp, 
main = "b. Histogram + Kernel Density", col = "maroon", 
las = 1, cex.axis = .8, freq = F) # freq=F: 概率 密 
lines(eq,lwd = 2) # 在 已 存在 的 直方 图 上 绘制 密度 曲线 
































# 图 8-1c 
eq2 = density(sbp$sbp, bw = 5) 
hist (sbp$sbp, 
main = "c. Histogram + Kernel Density, bw = 5", 
col = "maroon", las = 1, cex.axis = .8， 
freq = F) # freq=F: 概率 密度 
lines(eq2,lwd = 2) # 在 已 存在 的 直方 图 上 绘制 密度 曲线 


























# 图 8-1d 
eq3 = density(sbp$sbp, bw = 10) 
hist (sbp$sbp, 
main = "d. Histogram + Kernel Density, bw = 10", 
col = "maroon", las = 1, 
cex.axis = .8, freq = F) # freq=F: 概率 密度 
lines(eq3, lwd = 2) # 在 已 存在 的 直方 图 上 绘制 密度 曲线 





图 8-1a 是 核 密度 图 。 核 (kernel) 指 的 是 用 来 估计 组 成 图 的 点 的 方法 。 在 图 8-lb 中 ， 采 用 
Lines() 命令 生成 一 个 新 图 ， 倒 加 在 现 有 的 直方 图 之 上 。 以 这 种 方法 合并 两 张 图 是 非常 有 
用 的 ， 并 且 我 们 经 常会 使 用 这 种 方法 的 变种 。 本 例 中 ， 我 们 查看 了 概括 单一 分 布 的 两 种 不 
同方 法 。 





























在 图 上 添加 曲线 


Lines() 函数 是 又 一 个 用 来 在 当前 图 上 添加 新 信息 的 工具 。( 还 记得 abline()、text()、 
axis() 等 函数 吗 ? ) abline() 只 能 绘制 直线 ,而 lines() 几乎 可 以 绘制 任意 形状 的 线 。 
Lines() 接受 的 参数 可 以 是 包含 定义 线 的 点 的 向 量 ， 例 如 图 8-1 的 脚本 中 的 向 量 eq; 
也 可 以 是 一 对 用 来 画 线 的 变量 Xx 和 y。 更 多 参数 可 以 是 par() 中 的 参数 。 谷 知 更 多 信 
息 ， 请 输入 2lines 查询 。 














图 8-1a Æ x 轴 上 显示 了 默认 标签 ， 代 表 样 本 的 大 小 NN 和 带宽 (bandwidth)。 带 宽 表 示 图 的 
分 散 程度 。 图 8-1b, Fl 8-lc 和 图 8-1d 展示 了 改变 带宽 的 效果 。 图 8-lb 中 是 默认 的 带宽 ， 
与 图 8-1a 相同 。 注 意 ， 它 符合 直方 图 大 体 的 形状 。 它 改变 了 3 次 方向 ， 即 线 有 3 个 (非常 
小 的 ) 弯曲 。 我 们 很 可 能 会 得 出 这 样 的 结论 : 线 和 直方 图 契合 得 很 好 。 图 8-1lc 展示 了 较 小 
的 带宽 ， 它 和 直方 图 契合 得 更 紧 并 改变 了 5 次 方向 。 图 8-1d 展示 了 较 大 的 带宽 ， 结 果 为 一 
条 平坦 的 线 ， 仅 弯曲 一 次 。 

























































































8.1.1 选择 带宽 


应 该 使 用 多 大 的 带宽 ? 这 并 并 且 给 出 一 个 准确 的 答案 也 超出 了 本 书 的 
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范围 。 或 许 使 带宽 非常 小 ， 即 创建 一 条 非常 接近 直方 图 的 线 是 最 好 的 方式 。 然 而 ， 请 记 
住 ， 直 方 图 基于 数据 的 一 个 样本 。 如 果 我 们 选取 另 一 个 样本 ， 甚 至 是 从 sbp 数据 集中 69 
个 血压 中 选取 的 一 个 样本 ， 直 方 图 中 的 波峰 和 波 谷 也 会 有 所 不 同 ， 甚 至 有 很 大 不 同 ! 越 努 
力 使 密度 曲线 精确 ， 就 越 不 可 能 很 好 地 契合 新 样本 的 直方 图 。 作 出 过 分 详细 的 估计 被 称 作 
过 拟 合 〈overfitting)， 这 可 能 会 导致 令 人 篮 众 的 错误 重新 出 现在 新 数据 中 。 另 一 方面 ， 如 
果 使 带宽 变 大 ， 这 样 可 能 刚好 适合 大 多 数 样本 ， 却 不 会 捕捉 到 很 多 细 市 。 在 许多 情况 下 ， 
你 可 能 会 发 现 利 用 不 同 带宽 进行 试 错 可 以 带 来 启发 。 一 般 来 说 ， 非 常 密集 的 数据 ( 即 大 量 
数据 ) 可 以 使 用 较 小 的 带宽 ， 而 对 于 非常 稀 玻 的 数据 建议 使 用 更 大 的 带宽 。 许 多 及 包 提 供 
密度 估计 和 寻找 合适 带宽 的 方法 。 例 如 ，ASH 和 KernSmooth 对 于 大 型 数据 集 来 说 运行 得 特 
别 快 ， 而 np 虽 提 供 基 于 数据 的 带宽 计算 ， 但 相对 缓慢 。 


8.1.2 比较 两 个 或 多 个 密度 图 
有 时 也 需要 比较 两 个 或 更 多 密度 图 。 例 如 ， 你 可 能 想 比 较 两 种 分 布 的 方式 ， 看 看 它们 是 否 
有 相似 的 形状 和 差异 。 考 虑 1.8.2 WH emissions 数据 ， 代 码 如 下 : 




































































> load("emiss.rda") # 加 载 来 自 第 1 章 的 emtssions 数 据 
> emissions # 查看 emissions 数 据 


Year N_Amer CS_Amer Europe Eurasia Mid_East Africa 


1 2004 16.2 2.4 了 9 8.5 Pod 1A 
2 2005 16.2 2.5 7.9 8.5 7.6 1.2 
3 2006 15.9 2.5 759 8.7 Fad 1.1 
4 2007 15.9 2.6 7.8 8.6 7.6 1.1 
5 2008 15.4 2.6 7.7 8.9 T9 T2 
6 2009 14.2 2.6 7.1 8.0 8:3 Tt 
7 2010 14.5 Zel: Tad 8.4 8.4 43 
Asia_Oceania 

1 2.7 

2 2.9 

3 3.1 

4 S22 

5 333 

6 3.5 

7 3.6 





假设 需要 比较 欧洲 和 欧 亚 大 陆 的 排放 量 。 首 先 ， 我 们 可 以 首先 为 欧洲 的 碳 排放 数据 绘制 密 
度 图 ， 然 后 用 Lines() 函数 在 生成 的 图 上 绘制 欧 亚 大 陆 的 数据 。 注 意 ， 下 面 生 成 图 8-2 的 
代码 使 用 参数 xLimn 和 ylim， 以 使 欧洲 密度 图 足够 大 ， 以 免 欧 亚 密度 图 超出 图 形 。 不 要 以 
为 我 有 看 似 很 棒 的 先 见 之 明 一 一 我 第 一 次 尝试 时 没有 扩展 图 的 限制 ， 结 果 和 弄 得 一 团 糟 ! 有 
时 试 错 是 获得 启发 的 唯一 途径 。 生 成 图 8-2 的 脚本 如 下 : 

# 图 8-2 的 脚本 

# 使 用 par() 设 置 黑 底 白字 的 效果 


load("emiss.rda") 
par(bg = "black", col.lab = "white", 
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col.axis = "white", bty="L", 

fg = "white", col.main = "white") 
euro = density(emissionsSEurope) # points on density(Euro) 
ea = density(emissionsSEurasia) # points on density(Eurasia) 


# 使 用 xLim 和 yLim, 所 以 第 二 张 图 没有 出 界 
plot(euro, xlim = c(6.9,9), ylim = c(0,2), 
main = "C02 Emissions in Europe and Eurasia", 
col = "goldenrodi", lwd = 2) 
lines(ea, xlim = c(6.9,9), ylim = 
lty = 2, lwd = 2, col = "cyan") 
# Lty=2 为 虚线 
# lwd = 2 为 比 默认 线 宽 的 线 


c(0,2), 


legend("topleft",c("Europe","Eurasia"), 
text.col = c("goldenrod3","cyan"), bty = "n") 





Ny 


结果 如 图 8-2 所 示 。 





欧洲 和 欧 亚 大 陆 二 氧化 碳 的 排放 量 


欧 亚 大 陆 (虚线 ) 











88-2: 在 同一 轴 上 的 两 个 密度 图 。 在 第 一 张 图 上 使 用 参数 xlin 和 yLim， 让 图 的 面积 足够 大 以 便 包 
舍 第 二 张 图 ， 否 则 第 二 张 图 可 能 会 出 界 
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8. 


本 


书 中 大 部 分 图 的 背景 都 是 白色 的 ， 看 起 来 干净 、 清 晰 。 
这 样 做 只 是 为 了 表示 你 想 怎 么 做 都 行 。 如 果 运 行 生成 图 8-2 的 千本 时 不 用 par() 命令 ， 通 


1.3 背景 不 是 白色 的 














请 注意 





























， 图 8-2 的 背景 是 




















LEM, 


常会 使 用 白色 背景 。 再 次 运行 脚本 时 包括 par() 命令 ， 就 会 出 现 黑色 背景 。 如 果 首先 生成 
比 命令 ， 一 


的 


8. 











em BA, BAKA BAMA Arete paro 那么 简单 了 。 一 旦 运行 | 
些 参数 就 会 被 改变 ， 并 且 这 些 改变 仍然 有 效 。 每 个 参数 都 需要 重 置 ， 以 作为 另 一 个 par() 
令 的 参数 ， 即 变 “ 黑 ”为 “和 白 "， 反 之 亦 然 。 顺 便 说 一 下 ， 如 果 需 要 ， 可 以 输入 不 带 参 
数 的 








par() 命令 ， 看 看 哪些 参数 有 效 。 


2 累积 分 布 函数 





密度 图 可 以 给 人 启示， 但 并 不 总 是 为 我 们 提供 真正 需要 的 信息 。 

















尽管 密 








图 能 让 我 们 感 


知 水 平 轴 上 值 的 相对 可 能 性 ， 但 我 们 常常 更 想 知 道 数 值 小 于 等 于 120、 大 于 等 于 135 或 


120~140 的 收缩 压 的 可 能 性 。 累 积分 布 函 数 (cumulative distribution function, CDF) 图 











轴 上 展示 一 个 分 数 小 于 等 于 x 轴 上 数值 的 概率 。 


考虑 一 个 遵循 正 态 分 布 (normal distribution， 也 称 “ 钟 形 曲线 ") 的 数据 分 布 。 我 们 的 


来 














在 y 











例子 


自 一 个 仿真 (simulation) 或 计算 机 模拟 : 从 大 量具 有 指定 特征 的 数字 中 选 出 一 个 很 大 的 
样本 。 生 成 图 8-3 的 代码 如 下 ， 用 rnorm() 函数 实现 : 
# 图 8-3 的 代码 
library(multcomp) 
library(Hmisc) 
par(mfrow = c(2,2), cex.main = .9, bg = "white") 


# 从 常规 距离 中 抽取 100 9900 个 样本 数据 
# 其 nean = 0 H sd = 1 
sam <- (rnorm(100000)) #mean = 0 和 sd = 1 是 默认 值 
plot(density(sam), 
main = "a. Density (sampling from Normal distribution)", 
col = "coral4") # 图 8-3a 
polygon(density(sam), col = "coral4") # 曲线 下 的 颜色 区 域 














plot(ecdf(sam), 
main = "b. Cumulative distribution function of sample in 
Figure 8-3a", col = "turquoise") 


plot(ecdf(sbp$sbp), main = "c. ecdf(sbp$sbp) - base R") 
Ecdf(sbp$sbp, 

main="d. Ecdf(sbp$sbp) - Hmisc pack. + grid()", 

xlab = "sys blood pressure", col = "deepskyblue3") 
grid(col = "gray70") # 为 当前 图 添加 灰色 网 格 


























a. 由 计算 机 生成 的 100 000 个 数字 样本 的 密度 图 b. 小 的 sbp 数 据 集 的 CDF 
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8-3; 经 验 累积 分 布 函 数 








图 8-3a 是 由 计算 机 生成 的 100 000 个 数字 样本 的 密度 图 。 图 8-3b 显示 数据 集 的 CDF。 由 
图 可 知 , y 轴 上 大 约 一 半 的 数字 小 于 或 等 于 x 轴 上 的 0 值 ， 而且 几乎 (但 不 完全 ) 所 有 的 
数字 都 小 于 2。 图 8-3b 的 CDF 图 是 利用 R 的 ecdf() 函数 生成 的 ，ecdf() 是 经 验 累积 密度 
函数 (empirical cumulative density function，CDF)。 它 是 一 条 平滑 的 曲线 ， 因 为 有 很 多 数 
字 并 且 分 布 是 连续 的 。 图 8-3c 展示 了 将 ecdf() 函数 应 用 到 小 的 sbp 数据 集 时 的 情况 。 曲 
线 ” 以 与 图 8-3b 中 相同 的 方式 解释 ， 但 数据 非常 稀 距 ， 以 致 图 上 有 断 点 ， 这 使 此 图 缺乏 吸 
引力 且 难 以 阅读 。 练 习 读 图 8-3c。 比 大 约 一 半 血 压 都 要 高 的 血压 值 是 多 少 ? 在 y 轴 上 找到 
proportion = 0.5 的 位 置 。x 坐标 约 为 150 或 稍 小 一 点 ， 所 以 约 50% 的 血压 小 于 等 于 150。 



















































































找到 CDF 的 另 一 个 方法 使 用 Hmisc 包 中 的 ecdf() 函数 ， 其 生成 的 结果 如 图 8-3d 所 示 。 这 
是 一 个 阶梯 函数 而 不 是 光滑 的 曲线 ， 但 它 比 图 8-3c 更 好 看 ， 且 更 易于 阅读 。 这 个 函数 有 
很 多 高 级 特性 可 用 ， 比 如 为 多 个 组 生成 图 形 的 能 力 以 及 一 些 标签 选项 。 还 有 其 他 生成 CDF 
的 方式 ， 其 中 非常 有 趣 的 一 个 是 goplot2 包 中 的 stat_ecdf() 函数 ， 其 生成 的 图 如 图 8-4 所 
示 。 它 既 好 看 又 易于 阅读 ， 主 要 是 因为 有 网 格 线 。 生 成 图 8-4 的 代码 如 下 : 
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# 图 8-4 的 代码 
library(ggplot2) 
ggplot(sbp, aes(x=sbp)) + stat_ecdf() 
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图 8-4: 由 ggplot? 包 生成 的 经 验 累 积 密度 图 ， 网 格 线 使 这 张 图 易于 阅读 


8.2.1 练习 8-1 
继续 进行 图 8-1 的 实验 。 选 择 各 种 带宽 ， 并 绘制 基于 直方 图 的 密度 图 。 使 用 一 些 接近 图 8-1 
的 带宽 和 一 些 完 全 不 同 的 带宽 。 你 学 到 了 什么 ? 


8.2.2 练习 8-2 


基于 图 8-4， 随 机 选择 一 个 收缩 压 为 125 或 更 低 的 人 的 概率 是 多 少 ? 大 于 等 于 175 的 概率 
呢 ? 大 于 等 于 125 但 小 于 等 于 175 的 概率 是 多 少 呢 ? 
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让 我 们 回顾 第 7 章 的 Salaries 数据 集 。 图 7-5 展示 了 六 张 直方 图 ， 分 别 代表 不 同 级 别 和 性 
别 的 六 组 教师 的 工资 分 布 。 查 看 该 数据 的 另 一 种 有 趣 的 方式 是 比较 各 组 的 教师 总 人 数 。 让 
我 们 由 简 入 繁 ， 先 看 只 代表 了 三 个 不 同 级 别 的 教师 总 人 数 的 图 形 。 知 道 了 每 个 级 别 的 总 人 
数 ， 我 们 可 以 将 它们 输入 一 个 向 量 ， 如 下 所 示 : 

















> ranknum = c(67,64,266) 


然后 ， 绘 制 ranknum 向 量 的 条 形 图 (bar plot 或 bar chart) : 





> barplot(ranknum) 





如 果 总 数 未 知 ， 可 以 用 table() 函数 把 这 些 总 数 存在 一 个 向 量 中 ， 然 后 用 barplot() 操作 
该 向 量 ， 代 码 如 下 : 





# 为 图 9-1 做 准备 

install.packages("car") # 若 还 设 安装 car 

library(car) 

attach(Salaries) 

rankcount = table(rank) # 获取 rank 的 计数 并 保存 到 向 量 
rankcount # 打印 结果 


rank 


AsstProf AssocProf Prof 
67 64 266 
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如 下 代码 中 的 barplot() 函数 以 条 的 高 度 代表 向 量 中 的 元 素 ， 在 本 例 中 即 为 各 级 别 教师 的 
总 人 数 。 这 样 图 中 就 有 三 个 紧 条 ， 前 两 个 的 高 度 几乎 相等 ， 第 三 个 的 高 度 约 为 其 他 两 个 的 
四 倍 : 





# 图 9-1a 
barplot(rankcount, ylab = "Count", col = "skyblue", 
main = "Faculty by Rank", sub = "a. Number in each rank") 





图 9-1a 展示 了 该 条 形 图 。 
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图 9-1: 每 一 类 中 教授 数量 的 条 形 图 ， 每 一 类 中 平均 工资 的 条 形 图 。 每 类 分 别 按 级 别 和 性 别 计数 


注意 ， 尽 管 条 形 图 看 起 来 有 点 像 直 方 图 ， 但 二 者 完全 不 同 。 直 方 图 的 条 是 通过 将 沿 着 坐标 
轴 不 断 增 加 (或 减少 ) 的 定量 变量 分 成 多 个 部 分 来 定义 的 。 如 果 需 要 ， 你 可 以 使 用 不 同 的 
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断 点 定义 条 。 而 条 形 图 的 条 则 是 离散 的 ， 甚 至 是 按 类 区 分 的 ， 所 以 断 点 通常 是 
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WH LAAN. AIRMAIL / wE, B/A R, Re A / 
纸币 或 其 他 任何 互 斥 且 不 是 定量 的 分 类 。 基 于 直方 图 拟 合 密度 图 是 有 意义 的 ， 但 通常 不 会 














基于 条 形 图 进行 拟 合 。 




















在 图 9-1a 中 ， 每 一 个 条 的 高 度 代表 相应 级 别 教师 的 人 数 。 虽 然 条 形 图 通常 用 来 显示 总 数 ， 


但 条 的 高 度 可 以 代表 任何 数值 ， 例 如 测量 值 、 均 值 、 税 后 收入 等 。 图 9-1b 中 的 条 形 图 就 
是 一 个 例子 ， 它 展示 了 不 同 级 别 教师 的 平均 工资 。 为 了 绘制 这 样 一 张 图 ， 首 先 必 须 使 用 
aggregate() 国 数 把 平均 工资 放 到 一 个 向 量 中 ， 然 后 调用 barplot() 来 操作 新 创建 的 数据 。 
表达 式 salary ~ rank 表明 对 三 个 级 别 中 的 工资 执行 操作 。FUN = mean 表明 将 找到 均值 ， 
































代码 如 下 : 


aver = aggregate(salary ~ rank, FUN = mean) # aver 是 一 个 新 的 向 量 
aver # 看 看 aver 中 有 什么 
rank salary 
1 AsstProf 80775.99 
2 AssocProf 93876.44 
3 Prof 126772.11 











# 图 9-1b 条 形 图 的 高 度 表示 平均 工资 ,名 称 为 等 级 
barplot(aver$salary, ylab = "Average Salary", 

names.arg = averSrank, col = "skyblue", 

main = "Faculty Salaries", sub = "b. Average salary by rank") 





你 可 以 通过 修改 条 形 图 来 展示 两 个 变量 的 关系 。 绘 制 堆 登 条 形 图 (stacked bar plot) 就 是 
一 各 方法， 如 图 9-1c 所 示 。 在 这 个 示例 中 ， 分 别 代 表 男 性 教授 和 女性 教授 数量 的 两 个 条 进 
行 了 细 分 ， 以 展示 各 级 别 男 教授 和 女 教 授 的 人 数 。 为 绘制 此 图 ， 首 先 要 创建 一 张 表 rank, 




















将 所 有 教授 按 级 别 和 性 别 进行 分 组 ， 代 码 如 下 : 


rank2 = table(rank, sex) 


rank2 
sex 
rank Female Male 
AsstProf 11 -56 
AssocProf 10 54 
Prof 18 248 


rank2 中 的 数据 可 以 用 barplot() 呈现 ( 见 图 9-1c)， 代 码 如 下 : 


# 医 9-1c 
barplot(rank2, ylab = "Count", names.arg = c("Female","Male"), 
main = "Faculty by Rank and Sex", 
col = c("skyblue","skyblue4","burlywood"), 
sub = "c. Stacked plot") 
legend("topleft", c("Prof","Assoc","Asst"), 
text.col = c("burlywood","skyblue4","skyblue") ) 
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各 种 矩形 ， 可 以 分 别 变 成 单独 的 条 ， 并 分 组 。 在 本 例 中 ， 你 可 以 把 同一 性 别 的 所 有 条 放 在 
一 起 实现 分 组 。 新 的 结果 如 图 9-1d 所 示 ， 绘 制 该 图 需要 修改 用 来 创建 图 9-1c 的 代码 ， 即 
添加 参数 beside = TT， 代码 如 下 : 























# 图 9-1d 
barplot(rank2, ylab = "Count", names.arg = c("Female","Male"), 
main = "Faculty by Rank and Sex", 
col = c("skyblue","skyblue4","burlywood"), 
sub = "d. Grouped plot", beside = T) 
legend("topleft", c("Prof","Assoc","Asst"), 
text.col = c("burlywood","skyblue4","skyblue")) 








注意 ， 生 成 图 9-lc 和 图 9-1d 的 代码 添加 了 legend() 函数 ， 目 的 是 给 图 添加 额外 的 文本 ， 
以 便 解 释 各 种 颜色 和 符号 的 意思 。 图 例 可 能 是 必要 的 ， 也 可 能 无 关 芭 要， 有 时 甚至 是 有 害 
的 ， 这 一 点 取决 于 具体 情况 。 图 例 可 能 会 导致 混乱 ， 因 此 图 例 的 取舍 非常 重要 。 如 果 确 定 
需要 图 例 ， 那 么 下 一 步 是 决定 把 图 例 放 在 哪里 效果 最 好 。 通 常 ， 图 例 应 当 放 在 图 中 离 重 
要 图 形 相对 较 远 的 地 方 。 注 意 ， 在 图 9-lc 和 图 9-1d 中 ， 图 例 都 在 左上 角 ， 这 是 通过 参数 
"topleft" 实现 的 。 图 例 中 的 名 称 和 rank 的 值 相对 应 ， 并 且 颜 色 向 量 (col=) 与 barplot() 
命令 中 的 颜色 向 量 一 致 。 
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HE RIG Alike AR AE, i TD A — BR HE Az A [spine plot， 也 被 称 为 
spinogram WE A He & 47% A (proportional stacked bar graph) ] 的 变种 来 改进 图 9-1c 中 
的 堆 琶 条 形 图 。 在 次 柱 图 中 ， 六 个 矩形 的 面积 分 别 与 所 在 组 合 的 教授 人 数 成 比例 ， 就 像 在 
堆 县 图 中 那样 。 而 在 条 形 图 中 ， 两 个 条 的 宽度 相同 ， 因 此 高 度 是 特定 性 别 /级 别 组 合 中 人 
数 的 唯一 指标 。 这 导致 部 分 条 的 高 度 比较 小 ， 以 至 于 很 难 与 其 他 条 进行 比较 。 状 柱 图 采取 
了 男 一 种 方法 ， 即 两 个 条 的 高 度 相同 ， 但 宽度 不 同 。 右 边 的 刻度 范围 涵盖 了 0~1 的 区 间 ， 
易于 估计 给 定 条 内 级 别 的 比例 。 
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比较 图 9-2 中 的 浴 柱 图 和 图 9-1c HASHES AI Al. WS EE AEN? 








生成 图 9-2 的 代码 如 下 : 

# 图 9-2 的 脚本 

rank3 = table(sex, rank) 

rank3 

rank 

sex AsstProf AssocProf Prof 
Female 11 10 18 
Male 56 54 248 


spineplot(rank3, col = c("skyblue","skyblue4","burlywood"), 
main = "Faculty by Sex and Rank") 
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图 9-2: SHE. KRESE 9-10 对 比 ， 哪 一 个 更 易于 理解 ? 


93 ”条 形 图 的 间距 和 方向 
图 中 条 的 间距 和 方向 对 于 传达 信息 十 分 重要 。 思 考 比 较 六 种 性 别 与 级 别 组 合 的 工资 问题 。 
各 组 平均 工资 有 几 种 不 同 的 呈现 方法 ， 脚 本 如 下 : 


# 图 9-3 的 脚本 
library(car) # 图 9-3 
attach(Salaries) 
par(mfrow = c(2, 2)) 
grp.sal = aggregate( 
salary ~ sex * rank, FUN = mean) # 每 组 的 均值 


# 标签 多 次 重复 使 用 ,可 以 用 命令 行 输入 变量 名 称 

rankname = c(" Asst", " T n Assoc", "n a " Prof", n ") 
sexcol = c("blue", "maroon") 

sexlab = c("Female", "Male") 





条 形 图 | 83 








# 图 9-3a 











barplot(grp.sal$salary, ylab = "average salary", 
Names.arg = rankname, col = sexcol, 
main = "Faculty Salaries", 


sub = "a. 


Default spacing between bars") 


legend("topleft", sexlab, text.col = sexcol, 
text.font = 2, title = "Sex", 
title.col = "black", cex = 0.8) 


# 图 9-3b 


barplot(grp.sal$salary, ylab = "average salary", 
Names.arg = rankname, col = sexcol, 


main = "Faculty Salaries", space = 1.5, 
sub = "b. Wide space between, space = 1.5") 
legend("topleft", sexlab, text.col = sexcol, text.font = 2, 
bty = "n") 
# 图 9-3c 


barplot(grp.sal$salary, ylab = "average salary", 


Names.arg = rankname, col = sexcol, 
main = "Faculty Salaries", space = c(1, 0, 1, 0, 1, 0), 
sub = "c. Same rank together, space = c(1,0,1,0,1,0)") 


legend("topleft", sexlab, text.col = sexcol, 
text.font = 2, bty = "n") 














# 图 9-3d 

barplot(grp.sal$salary, ylab = "average salary", col = sexcol, 
main = "Faculty Salaries", space = c(1, 0, 1, 0, 1, 0), 
horiz = T, sub = "d. Horizontal version of c. horiz=T", 
names.arg = rankname, 
cex.names = 0.8, las = 1) 


legend("bottomright", sexlab, text.col = sexcol, 
text.font = 2, bty = "n") 


detach(Sala 


首先 ， 使 用 aggregate() 国 数 得 到 各 组 的 平均 工资 问 量 grp.mean, 7 


ries) 


rank 表明 对 六 个 组 中 的 salary 分 别 执行 操作 。FUN 
绘制 几 张 条 形 图 ， 展 示 条 间 不 同 的 间距 ， 并 且 把 垂直 的 条 变 为 水 平 的 条 。 这 样 的 变化 可 以 
让 我 们 从 另 一 个 角度 看 图 。 























长 达 式 salary ~ sex * 


= mean 表明 操作 将 找 出 均值 。 我 们 将 


下 一 步 是 定义 字符 向 量 rankname, sexcol 和 sexLab。 你 可 以 采用 相对 简短 的 向 量 名 ， 而 不 
必 在 每 次 调用 barplot() 函数 时 输入 字符 串 。 这 不 是 硬性 规定 ， 但 这 样 做 确实 更 方便 。 





图 9-3 显示 了 生成 的 四 张 条 形 图 。 



























































每 个 绘图 命令 后 面 跟着 一 个 Legend() 命令 ， 在 生成 的 条 形 图 上 添加 图 例 。 你 可 以 在 控制 台 
中 逐条 输入 所 有 的 命令 行 ， 但 如 果 希 望 在 屏幕 或 页 面 上 查看 结果 ， 那 么 把 一 组 命令 写 入 脚 
本 通常 更 方便 。 这 样 ， 如 果 你 犯 了 一 个 错误 ， 仅 更 正 这 个 错误 并 再 次 运行 整 批 命 令 即 可 ， 
不 需要 重新 输入 所 有 命令 。 
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图 9-3: 一 个 图 的 四 个 变形 ， 把 级 别 和 性 别 并 列 放 置 








这 四 张 条 形 图 在 分 组 、 颜 色 、 标 签 和 图 例 方 面 非 常 相 似 。 最 重要 的 区 别 是 条 的 间距 ， 另 
外 ， 最 后 一 张 图 的 方向 和 其 他 图 不 同 。 第 一 张 图 ( 见 图 9-3a) 中 没有 出 现 参数 space， 因 
此 使 用 了 默认 值 绘图 。 图 9-3b 使 用 了 space = 1.5， 所 以 条 间隔 很 宽 ， 即 条 间 的 宽度 是 条 
的 1.5 倍 。 最 后 两 张 条 形 图 中 ， 各 级 别 中 代表 男性 和 女性 的 条 紧邻 ， 而 不 同 的 级 别 是 分 开 
的 。 这 是 通过 使 用 参数 space = c(1, 0, 1, 0, 1, 0) 实现 的 ， 它 告诉 R: 在 第 一 个 条 前 应 
该 有 一 个 大 小 为 1 的 间隔 ， 在 第 二 个 条 前 应 该 有 一 个 为 0 的 间隔 ， 以 此 类 推 。 


第 一 张 图 的 legend() 命令 生成 了 一 个 有 标题 和 边框 的 传统 图 例 。 本 例 中 ， 这 些 元 素 并 不 是 
必要 的 ， 因 此 其 他 的 图 去 掉 了 参数 title， 并 添加 了 bty =“"n"， 后 者 会 删除 边框 。 
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比较 图 9-3 中 的 四 张 条 形 图 。 注 意 ， 图 9-3a 中 的 图 例 使 图 看 起 来 有 点 杂乱 。 




















其 他 








[Zz] 











直接 把 


注意 力 吸 引 到 了 条 上 。 如 果 仔 细 研 究 前 两 张 图 ， 会 发 现在 每 一 个 级 别 中 女性 比 男性 的 平均 


工资 低 ， 而 
了 。 这 就 表 





量 凸 显要 点 。 


9.3.1 
图 9-3d 中 的 





明 ， 正 如 应 该 小 心 选择 词汇 来 清楚 表达 你 的 意思 ， 你 也 应 该 谨慎 选择 


图 9-3b 中 各 条 间 较 宽 的 间隔 使 这 一 点 不 太 明 显 。 最 后 两 幅 图 的 差异 就 显而易见 








图 








练习 9-1 





























例 的 顺序 也 改变 了 。 为 什么 ? 试 着 去 解决 这 个 问题 。 


9.3.2 
这 个 练习 具有 所 
数据 集 ， 尝 试 重新 生成 
形 图 还 是 直方 











Z] 





练习 9-2 
k 战 性 ， 但 有 助 于 你 自 测 对 了 的 掌握 程度 。 请 基于 本 章 中 用 到 的 Salaries 
图 9-4， 这 次 使 用 epicalc 包 中 的 pyramid() 函数 来 实现 。 结 果 是 条 





形 ， 尽 


图 例 有 点 奇怪 。 对 于 前 三 张 图 ， 图 例 刚 好 合适 ， 但 当 图 由 纵向 变 为 横向 时 ， 图 
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图 9-4: 不 同性 别 的 工资 





86 


第 9 章 


第 10 章 


HE 





10.1 普通 饼 图 

饼 图 (pie chart) 是 最 常见 的 一 类 图 。 你 一 定 已 经 见 过 无 数 饼 图 了 。 饼 图 在 有 些 领 域 的 应 
用 已 经 深入 人 心 ， 投 资 组 合 领域 就 是 其 中 之 一 。 投 资 顾问 建议 客户 将 持 有 的 财富 以 指定 的 
金 量 投 入 某 些 特定 类 别 的 项 目 ， 这 样 的 建议 通常 以 饼 图 的 形式 展现 。 基 金 经 理 也 以 类 似 的 
方式 向 客户 报告 他 们 (在 一 个 时 间 点 ) 的 持 股 。 考 虑 下 面 分 配给 “部 门 ”的 投资 组 合 〈 顺 
便 说 一 下 ， 这 不 是 建议 ) : 

。 国内 股票 (domestic stocks) 一 一 30 % 

。 国外 股票 (foreign stocks) 一 一 25 % 

。 债券 (bonds) 一 一 28 % 

。 黄金 /贵金属 (gold/precious metals) 一 一 10 % 

。 现金 等 价 物 (cash equivalents) 一 一 7 % 


我 们 可 以 创建 一 个 百分比 的 向 量 ， 并 使 用 pie() 函数 来 生成 期 望 的 图 ， 代 码 如 下 所 示 : 


# 图 10-1 的 脚本 
par(mfrow = c(2,2)) 









































allocation = c(30,25,28,10,7) # 投资 分 配 


# 可 以 重复 使 用 sector 和 sectcol; 无 需 重新 输入 

sector = c("Stock","For'n'","Bonds", 
"Gold","Cash") # 名 称 适 合 页 面 显 示 

sectcol = c("burlywood","turquoise","firebrick", 
"gold3","green4") 
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# 图 10-1 左上 角 


pie(allocation, labels = sector, main = "pie, default colors") 





# 图 10-1 右上 角 
pie(allocation, labels = sector, col = sectcol, 
main = "pie, choose colors") 


# 图 10-1 左下 角 

install.packages("plotrix", dependencies = TRUE) 

library(plotrix) # 首先 ,必须 已 经 安装 了 plotrix 

pie3D(allocation, labels = sector, col = sectcol, explode = .1, 
labelcex = .95, labelrad = 1.3, main = "pie3D") 

# expLode 将 块 分 开 ,LabeLrad 是 标签 离开 边缘 


# 图 10-1 右 下 角 
barplot(allocation, names.arg = sector, col = sectcol, 
main = "barplot") 








结果 如 图 10-1 所 示 。 








默认 颜色 的 饼 图 自选 颜色 的 饼 图 










































































三 维 饼 图 条 形 
8 
& 
国内 股票 = 
国外 股票 G 
er 
现金 e 
债券 
oO 




















10-1: 饼 图 和 使 用 相同 数据 生成 的 条 形 图 。 注 意 ， 使 用 条 形 图 比较 分 组 的 大 小 要 容易 得 多 
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图 10-1 展示 了 三 张 饼 图 : 第 一 张 使 用 默认 颜色 ,通过 pie() 函数 创建 ， 第 二 张 使 用 向 











量 sectcol 中 的 颜色 ， 通 过 pie() 函数 创建 ， 第 三 张 是 三 维 视图 (看 起 来 很 棒 )， 通 过 
pie3d() 国 数 创建 。 还 有 一 张 条 形 图 作为 对 照 。 注 意 ， 在 饼 图 中 ， 最 大 的 三 类 看 起 来 大 小 
相同 。 较 小 的 类 别 (黄金 和 现金 ) 似乎 也 是 相等 的 。 然 而 ， 用 完全 相同 的 数据 生成 的 条 形 

















图 清楚 地 展示 了 差异 。 因 此 ， 统 计 学 家 对 饼 图 评价 不 高 ， 这 没什么 好 惊讶 的 。 


尽管 有 不 足 之 处 ， 有 时 饼 图 也 很 实用 。 当 类 别 很 少 并 且 差 异 很 明显 时 ， 这 种 图 可 能 更 受 欢 
迎 。 当 你 想 强 调整 体 中 由 一 个 切片 代表 的 某 一 部 分 时 ， 饼 图 可 以 很 好 地 满足 需求 。 你 可 以 
以 多 种 方式 组 织 数 据 ， 从 而 绘制 饼 图 。 本 章 的 练习 可 以 帮助 你 加 深 理 解 。 


10.2 


AK E 


CRANE BIA (fan plot), ， 如 图 10-2 所 示 。 








扇形 图 


国外 股票 










债券 
国内 股票 














图 10-2: 扇形 图 


这 种 类 型 的 





图 看 起 来 有 点 像 饼 图 ， 但 弥补 了 饼 图 最 严重 的 缺陷 。 创 建 图 10-2 的 代码 如 下 : 
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# 图 10-2 

library(plotrix) 

allocation = c(30,25,28,10,7) # 投资 分 配 

# 可 以 重复 使 用 sector & sectcol, ;无 需 重新 输入 

sector = c("Stock","For'n","Bonds","Gold","Cash") 

sectcol = c("burlywood","turquoise" ,"Firebrick", "gold3", 
"green4") 





fan.plot(allocation, labels = sector, col = sectcol, 
ticks = 30, main = "Fan Plot") 








图 10-2 中 的 扇形 图 使 用 的 标签 与 图 10-1 中 的 饼 图 相似 ， 二 者 颜色 相同 。 这 看 似 有 点 混乱 ， 
因为 图 中 模 形 的 大 小 不 代表 对 应 投资 项 目 在 投资 组 合 中 的 比例 ， 这 个 比例 由 不 同 颜色 模 形 
的 弧 的 长 度 表示 。 因 此 ， 我 们 从 图 上 可 以 看 出 ,，“ 国 内 股票 ”比例 最 大 ,“ 债 券 ” 次 之 ， 以 
此 类 推 。 理 解 该 图 的 另 一 种 方法 是 ， 想 象 饼 图 上 最 大 的 切片 被 放 在 底部 ， 第 二 大 的 切片 放 
在 其 上 ， 以 此 类 推 。 最 大 切片 的 可 见 部 分 显示 了 与 第 二 大 切片 的 差额 。 同 理 ， 你 也 很 容易 
看 到 第 二 大 切片 比 下 第 三 大 切片 大 多 少 。 如 果 清 楚 图 的 原理 ， 这 个 思路 是 有 帮助 的 ， 但 如 
有 果 你 用 它 来 展示 自己 的 数据 ， 那 么 需要 仔细 地 解释 该 图 。 即 便 如 此 ， 有 些 人 仍然 难以 理解 
这 类 图 ， 而 且 他 们 会 得 出 错误 的 结论 ， 比 如 认为 “国外 股票 ”是 图 10-2 中 最 大 的 。 扁 形 医 
是 非常 聪明 的 设计 ， 但 长 期 的 饼 图 经 验 会 对 局 形 图 的 使 用 构成 障碍 。 你 要 小 心 这 一 点 。 












































































































































10.2.1 练习 10-1 

请 为 在 克 里 米 亚 战 争 中 英国 士兵 死亡 的 原因 绘制 一 张 饼 图 。 你 可 以 在 Histpata 包 中 的 
Nightingale 数据 集 里 找到 数据 。 你 需要 首先 安装 并 加 载 该 包 。 请 注意 数据 集 的 构造 : 三 
个 独立 的 变量 代表 三 类 死记 原因。 你 需要 新 创建 一 个 有 三 个 数字 的 向 量 : 数字 为 每 个 变量 
的 总 和 。 代 码 如 下 : 


























install. packages("HistData") 

library(HistData) 

attach(Nightingale) 

deaths = c(sum(Disease), sum(Wounds), sum(Other) ) 





请 解析 这 段 代 码 。 相 比 投资 组 合 的 例子 ， 本 例 是 否 更 好 地 使 用 了 饼 图 ? 请 给 出 答案 并 说 明 
原因 。 











10.2.2 ”练习 10-2 


为 Nimrod 数据 集中 的 mediun 绘制 一 张 饼 图 。 你 需要 创建 一 个 向 量 ， 包 含 每 个 mediun 的 频 
38, table() 命令 可 以 实现 该 操作 。 请 把 这 副 图 绘制 得 条 理 清晰 、 赏 心 悦 目 。 
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地 牧 图 





地 毯 图 


WEA (ug) 并 不 是 真正 独立 的 图 。 它 是 一 种 一 维 展示 ， 可 以 添加 到 已 有 的 图 上 ， 以 说 明 其 
他 类 型 图 中 没 能 呈现 的 信息 。 地 我 图 和 带 状 图 一 样 ， 沿 坐标 轴 在 各 个 点 放置 不 同 的 符号 ， 代 
表 变 量 的 值 ， 只 不 过 它 使 用 短线 来 表示 点 。 它 可 以 放 在 图 的 底部 (默认 ) 或 顶部 (side = 3), 
如 果 合 适 的 话 ， 例 如 搭配 垂直 的 箱 线 图 的 情形 ， 地 毯 图 也 可 以 放 在 图 的 左 侧 (side = 2) 
RAM (side = 4) 轴 上 。 当 两 个 观测 值 相等 时 ， 它 们 会 琶 加 ， 导 致 线 更 暗 ， 示 例如 下 : 


# 图 11-1 的 脚本 
Library(multcomp) 
par(mfrow = c(2,2)) 
stripchart(mtcars$drat, 
main="a. side = 3", method = "jitter", 
pch = 20, col = "sienna4") 
rug(mtcarsS$drat, side = 3) 






























































boxplot(mtcars$drat, main = "b. side = 2", 
col = "firebrick") 
rug(mtcars$drat, col = "darkmagenta", side = 2) 


hist(airquality$Ozone, main = "c. side = 1", col = "cyan4") 
rug(airqualitySOzone, col = "cyan4") 


boxpLot(sbp$sbp, 
main = "d. side 
rug(sbp$sbp, side 


4", col = "darkorange3") 
4, col = "cornsilk4") 


结果 如 图 11-1 所 示 。 
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b. side = 2 
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11-1; WREDA 





如 图 11-1a 所 示 ， 诡 加 地 毯 图 本 质 上 就 像 在 一 张 图 的 底部 或 顶部 加 一 个 带 状 图 。 对 于 带 状 
图 ， 地 毯 图 是 多 余 的 ， 没 有 什么 帮助 。 但 是 ， 地 毯 图 可 以 帮助 其 他 类 型 的 图 展示 可 能 丢失 
的 信息 。 例 如 ， 在 图 11-1b 中 ， 箱 形 图 呈 偏 态 分 布 ， 但 是 仅 赁 箱 线 图 我 们 不 可 能 知道 数据 






































分 布 在 几 块 中 ， 而 地 毯 图 清晰 地 展示 了 这 一 点 。 图 形 上 国 




















或 一 个 极 值 的 结果 。 地 毯 图 显示 了 所 有 点 和 它们 的 位 置 ， 
分 位 处 聚集 的 几 个 点 。 将 其 与 图 11-1d 对 比 ， 在 图 11-1d 






































ji 的 长 细 须 ， 可 能 是 几 个 分 散 的 点 





包括 一 个 极 值 和 刚 超过 第 三 个 四 








的 整个 范围 























内 地 毯 几 乎 是 等 距 的 。 


图 11-1c 的 地 毯 图 再 次 将 数据 显示 成 块 状 。 这 说 明 改 变 箱子 的 大 小 可 以 改变 直方 图 的 形状 。 
默认 情况 下 ， 地 毯 图 被 放置 在 图 的 底部 ， 但 可 以 使 用 参数 side = 3 把 它 放 在 顶部 。 关 于 可 
用 参数 的 更 多 信息 ， 请 输入 ?rug 进行 查询 。 地 毯 图 有 时 很 有 帮助 ， 但 在 其 他 情况 下 ， 它 




















并 没有 显示 出 真正 的 优势 。 


练习 11-1 


给 Nimrod 数据 集中 time 的 密度 图 添加 地 毯 图 。 给 MathAchieveS$SES 的 箱 线 图 ( 


添加 地 毯 图 。 哪 张 地 毯 图 更 实用 ? 








k] 5-2) 


= 
VR] 
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第 三 部 分 
双 变 量 图 





量 之 间 的 关系 自然 需要 研究 。 研 究 两 个 定量 变量 时 ， 我 们 可 能 想 知道 它们 是 否 是 关联 的 
coo 或 相关 的 (correlated) ， 即 它们 是 否 会 同时 改变 。 也 就 是 说 ， 一 个 变量 是 随 着 
另 一 个 变量 增 大 而 增 大 ， 还 是 随 着 另 一 个 变量 减 小 而 增 大 。 是 否 还 有 其 他 类 型 的 关系 ， 或 
者 也 许 根本 没有 关系 ? 双 变 量 图 就 可 以 解答 这 些 问题 。 
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散 扩 图 和 折线 图 


12.1 基础 散 点 图 


散 点 图 (scatter plot) 可 能 是 最 实用 的 图 形 化 工具 之 一 。 这 种 十 分 常见 的 图 可 以 方便 地 用 于 
研究 两 个 变量 之 间 的 关联 关系 。 进 一 步 来 说 ， 其 他 许多 类 型 的 图 无 非 是 基础 散 点 图 的 变种 。 


让 我 们 再 次 研讨 trees 数据 集 。 记 住 ，head() 函数 打印 出 了 前 6 行 。 输 入 trees 可 以 查看 
整个 数据 集 ， 代 码 如 下 : 























> head(trees) 
Girth Height Volume 


1 8.3 70 10.3 
2 8.6 65 10.3 
3 8.8 63 10.2 
4 10.5 72 16.4 
5 10.7 81 18.8 
6 10.8 83 19.7 


在 散 点 图 上 可 以 看 到 ， 这 3 个 变量 之 间 有 很 强 的 关系 。 我 们 将 使 用 plot() 函数 生成 散 点 
图 ， 该 函数 的 基本 形式 如 下 : 


plot(x-variable, y-variable, arguments...) 
下 的 脚本 生成 了 trees 数据 的 几 张 散 点 


# 4 小 段 脚本 生成 图 12-4 的 4 张 加 
attach(trees) 
par(mfrow = c(2,2), cex = .7) 








村 





FR] 
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# 图 12-1a: 仅 在 图 片上 展示 了 两 点 
trees2 = trees[1:2,] # trees2 是 一 个 子 集 ,只 有 前 2 棵 树 
# 见 侧 边 
plot(trees2SHeight, trees2$Girth, 
xlim = c(63,80), 
ylim = c(7.8,10), 





xlab = "Height", 
ylab = "Girth", 
main = "a. First two trees") 


# text() 允许 在 图 上 添加 注释 
text(72,8.1,labels = "(Height = 70, Girth = 8.3)", 
xlim = c(61,80), 
ylim = c(8,22)) 
text(65,8.8, labels = "(65, 8.6)", 
xlim = c(62,89), 
ylim = c(8,22) 




















# 图 12-1b: 注 意 一 个 基础 图 只 需要 很 少 的 代码 
plot(Height, Girth, main = "b. ALL trees") 


























# 图 12-1c, 图 符 见 表 12-1 

plot(Height, Girth, 
main = "c. Change plot character, add grid", 
pch = 20, 
col = "deepskyblue" ) 

grid(col = "gray70") 





= 











H4% 





# 图 12-1d # abline 在 图 上 添加 线性 所 
plot(Height, Girth, 
main = "d. Add regression line", pch = 20, 
col = "deepskyblue" ) 
abline(1lm(Girth ~ Height), 
col = "dodgerblue4", 
lty = 1, 
lwd = 2) # 覆盖 上 一 个 图 的 网 格 (coL = "gray70") 
detach(trees) 





Ny 


结果 如 图 12-1 所 示 。 





散 点 图 和 折线 图 








a， 前 两 棵 树 的 数据 b， 所 有 树 的 数据 








周 长 
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(65, 8.6) 
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o 
(Height = 70, Girth = 8.3) 
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12-1; Height 和 Girth 的 散 点 图 





图 12-1 展示 了 散 点 图 的 使 用 。 你 可 能 已 经 忘记 了 多 年 前 学 的 高 中 数学 ， 所 以 图 12-1a 解释 
了 怎样 理解 点 (图 中 为 小 圆圈 )。 数 据 集中 第 一 棵 树 的 Height (高 度 ) 为 70，Girth (JA 
长 ) 为 8.3。 对 应 这 些 测量 点 ， 可 以 看 到 它们 在 图 形 上 的 位 置 。 





















































12-1b 更 进一步 ， 在 图 上 绘制 了 所 有 的 点 ( 即 树 的 数据 )。 请 注意 ，Height FH Girth 之 间 
似乎 存在 关系 。 随 着 Height 变 高 ，Girth 也 会 变 长 。 这 不 是 一 种 精确 而 严格 的 关系 ， 但 二 
者 也 不 是 随机 搭配 的 。 











12-1c 简单 地 改变 了 图 符 。 这 样 做 不 仅 让 图 更 好 看 ， 也 更 易 读 。 图 中 还 引入 了 网 格 。 
grid() 函数 为 活跃 图 (active plot) 添加 了 参考 线 。 如 果 在 创建 图 之 后 没有 进一步 发 出 命 
令 ， 那 么 活跃 图 就 是 最 近 创 建 的 一 张 图 。 黑 认 情 况 下 ， 在 轴 上 的 刻度 线 处 绘制 网 格 线 。 如 
果 需 要 ， 可 以 改变 这 种 方式 ， 和 输入 ?grid 查看 如 何 实现 。 
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我 绘制 的 所 有 图 都 发 生 了 什么 
你 可 能 想 在 一 个 单独 的 R 会话 中 比较 一 系列 图 。 如 果 仅 依靠 输入 一 条 命令 来 生成 一 张 
图 ， 那 么 建立 新 图 的 时 候 前 一 幅 图 通常 会 被 删除 ， 无 法 再 次 看 到 。 不 过 ， 可 以 保持 以 
前 的 图 形 窗口 (多 个 窗口 ) 始终 打开 。 事 实 上 ， 可 以 同时 打开 多 达 63 个 图 形 窗口 。 和 
R 中 大 多 数 的 任务 一 样 ， 有 多 种 方法 可 以 做 到 这 一 点 。 顺 便 说 一 下 ， 同 时 打开 几 个 窗 
口 可 能 是 有 帮助 的 ， 但 不 建议 同时 打开 63 个 | 


在 所 有 平台 上 都 可 用 的 一 种 方法 是 ， 在 输入 生成 下 一 张 图 的 命令 之 前 ， 输 入 dev. 
new()。 这 样 将 创建 一 个 空白 的 图 形 窗口 ， 在 该 窗口 中 显示 下 一 张 图 。 之 前 创建 的 所 有 
图 形 窗 口 部 不 会 受到 影响 。 然 后 ， 你 可 以 重新 研究 已 经 绘制 的 任意 一 张 图 。 点 击 你 感 
兴趣 的 任意 窗口 即 可 ， 但 如 果 有 很 多 窗口 ， 寻 找 想 要 的 那个 可 能 非常 无 聊 。 


如 果 你 使 用 的 是 Mac， 更 便捷 的 方法 是 在 发 出 绘制 新 图 的 命令 之 前 ， 打 开 “ 窗 口 ” 
(Window) 菜单 ， 并 点 击 “新 石英 设备 窗口 ”(New Quartz Device Window)。 同 样 ， 之 
前 的 图 不 会 受到 有 影响。 打开“ 窗口” 菜单 ， 然 后 选择 Quartz2, Quartzs 等 ， 可 以 很 容 
易 地 从 一 张 图 切换 到 另 一 张 图 。 


在 基于 Windows 的 计算 机 上 ， 使 用 dev.new() 创建 一 个 新 的 图 形 窗口 之 后 ， 打 开 “ 窗 
口 ” 菜 单 ， 然 后 选择 “R 图 形 设 备 n”(R Graphics Device 1) ， 可 以 从 一 张 图 切换 到 另 
一 张 图 。 


另 一 种 方法 是 创建 一 张 图 ， 并 单 击 它 所 在 的 窗口 。 如 果 要 将 其 保存 ， 打 开 “ 文 件 ” 
(File) 菜单 ， 单 击 “ 另 存 为 ”(Save As) 即 可 。 在 OS X 中 ， 可 以 把 图 保存 为 PDF 文 
件 。 在 Windows 系统 中 ， 可 以 选择 将 图 保存 为 几 种 不 同文 件 类 型 中 的 任何 一 种 。( 这 
两 个 平台 上 都 有 另 一 种 方式 可 以 将 文件 保存 为 各 种 格式 ， 详 见 2.1 节 。) 


如 果 你 的 文字 处 理 器 (或 演示 ) 程序 允许 ， 还 有 一 种 更 为 方便 的 方法 ， 就 是 点 击 你 
想 要 的 图 ， 打 开 “ 编 辑 ”(Edit) 菜单 ， 然 后 选择 “复制 ”(Copy)， 再 单 击 “粘贴 ” 
(Paste) ， 把 复制 的 图 放 到 文字 处 理 器 中 。 遗 憾 的 是 ， 并 不 是 所 有 的 文字 处 理 器 程序 者 
支持 这 种 方式 。 在 研究 了 所 有 的 图 之 后 ， 删 除 不 要 的 图 就 好 ， 剩 下 的 图 已 经 存在 一 个 
可 以 添加 文本 的 文档 中 了 。 








通过 使 用 abline() 函数 并 作用 于 活跃 图 ， 








图 12-1d 在 点 上 添加 了 回归 线 。 线 性 回归 法 是 一 











种 在 观测 数据 中 寻找 “最 佳 拟 合 ”直线 的 方法 。 相 同 横 坐 标 下 ， 拟 合 线 上 的 点 和 被 拟 合 线 
上 的 点 的 垂直 距离 就 是 “误差 ">。 换 句 话 说 ， 误 差 显 示 了 预测 点 的 值 距离 线 有 多 远 。 取 所 


























有 误差 的 平方 并 求 和 ， 得 到 的 参数 可 以 衡量 线 的 拟 合 程度 。 拟 合 线 有 无 数 条 ， 可 以 放 在 图 











上 的 “最 佳 拟 合 ”是 “误差 ”平方 和 最 小 的 线 ， 即 “最 小 平方 ” 线 。 之 前 trees 数据 的 脚 
本 中 ，abline() 命令 里 有 tm() 函数 ，R 用 此 函数 找到 了 拟 合 线 。 如 果 点 更 靠近 线 ， 我 们 可 


以 推断 ，Height 和 Girth 之 间 的 关系 比 在 





图 12-1d 中 看 到 的 更 强 。 


回想 直线 方程 的 形式 ， 了 表示 线 上 的 一 个 点 ， 如 下 所 示 : 
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Y=a+ (b * X) 


其 中 ，a = 截 距 (RFL y 轴 时 的 点 )，2 = 斜率 CY BEX ZEEE). 














获取 截 距 和 和 斜率 值 的 方法 如 下 : 
Lm(Girth ~ Height) 


Call: 
lm(formula = Girth ~ Height) 


Coefficients: 
(Intercept) Height 
-6.1884 0.2557 


由 公式 可 知 ， 线 是 由 方程 确定 的 : 
Girth = -6.1884 + (0.2557 * Height) 

此 外 ， 使 用 以 下 命令 可 以 得 到 与 该 模型 相关 的 统计 : 
summary( lm(Girth ~ Height)) 


然而 ， 对 这 一 信息 的 解释 超出 了 本 书 的 范围 。 在 其 他 情况 下 ， 我 们 可 能 已 经 在 数据 中 看 到 
了 一 种 模式 ， 该 模式 并 不 接近 于 一 条 直线 ， 我 们 可 能 试图 拟 合 一 条 曲线 ， 或 已 经 得 出 了 两 
变量 间 没有 关联 的 结论 。 有 能 力 给 图 增加 回归 线 固然 很 好 ， 但 如 果 不 明 就 里 ， 这 就 无 异 于 
Wk, MARIER! 






































于 集 

在 图 12-la 中 ，trees2 是 提取 自 trees 的 子 集 ， 即 一 个 较 小 的 数据 集 。 对 于 比较 部 分 
与 整体 ， 或 比较 两 个 部 分 ， 子 集 是 有 帮助 的 。 即 使 RR 提供 了 几 种 定义 子 集 的 方法 ， 在 
脚本 中 使 用 的 方法 仍 是 优雅 和 经 济 的 ， 只 需要 很 少 的 输入 。 数 据 框 /向 量 的 名 称 后 面 
的 方 括号 中 有 两 项 内 容 : 一 个 是 关于 行 的 表达 式 ， 另 一 个 是 关于 列 的 表达 式 。 

集 最 简单 的 用 途 是 查找 元 素 。 例 如 ， 查 找 第 三 行 第 二 列 的 元 素 ， 代 码 如 下 : 

> trees[3,2] 

[1] 63 

或 者 用 其 中 的 数据 创建 一 个 新 的 向 量 : 


> newrow = trees[3,2] 
> newrow 
[1] 63 


如 果 行 表达 式 或 列表 达 式 为 室 ， 那 么 该 子 集 包括 整 行 或 整 列 。 如 果 想 取 人 整个 第 三 行 ， 
可 以 使 用 如 下 代码 : 
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> trees[3,] # trees[-3,] 则 表示 第 三 行 * 以 外 * 的 所 有 内 容 


Girth Height Volume 
3 8.8 63 10.2 


用 符号 a:b 可 以 获取 从 a 到 b 的 元 素 。 如 果 想 取 第 四 行 到 第 六 行 ， 但 只 要 第 二 列 和 第 
三 列 的 所 有 值 ， 那 么 实现 代码 如 下 : 
> trees[4:6, 2:3] 


Height Volume 
4 72 16.4 


不 连续 的 行 或 列 可 以 用 向 量 符号 ， 通 过 数字 和 / 或 变量 名 来 选择 : 


> trees[,c("Girth","Volume")] # trees[,c(1,3)] 做 同样 的 事 








Girth Volume 


1 8.3 10.3 
2 8.6 10.3 
3 8.8 10.2 
4 10.5 16.4 
5 10.7 18.8 


使 用 如 下 方法 可 以 删除 有 缺失 值 的 任意 行 。 
> mysubset = na.omit(airquality) 

如 果 只 需要 选择 那些 具有 某 些 特征 的 观测 值 ， 那 么 最 好 使 用 subset() 函数 ， 例 如 : 
> subset(trees, Height > 70) # 仅 有 Height > 76 的 树 


Girth Height Volume 
10.5 72 16.4 
10.7 81 18.8 

19.7 

11.0 75 18.2 


co wm A 
> 
© 
œ 
œ 
Ww 








12.2 ”折线 图 


折线 图 (line chart， 也 称 为 line graph 或 line plot) 是 一 种 特殊 的 散 点 图 ， 它 非常 常见 且 非 
常 实用 。 在 这 种 类 型 的 图 中 ， 任 意 两 点 具有 不 同 的 x 值 。 此 外 ， 折 线 按照 x 值 从 小 到 大 的 
顺序 将 所 有 点 逐一 连接 起 来 。 同 一 组 坐标 轴 上 可 以 显示 两 张 或 更 多 张 折线 图 。 用 于 散 点 图 
的 plot() 函数 ， 也 可 生成 折线 图 。 图 12-2 呈现 了 几 个 实例 。 

































































我 们 用 HistData 包 中 的 Nightingale 数据 集 绘 制图 表 ， 该 数据 集 在 练习 10-1 中 首次 出 现 。 
加 载 此 包 并 查看 数据 ， 代 码 如 下 : 
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# 如 果 还 没有 安装 HistData, 那 么 必须 安装 ， 
# 否则 ,如 下 脚本 无 法 运行 

# install.packages("HistData", dep = T) 
library(HistData) 


attach(Nightingale) 
head(Nightingale) # head() 打印 前 6 行 
Date Month Year Army Disease Wounds Other 

1 1854-04-01 Apr 1854 8571 1 0 5 
2 1854-05-01 May 1854 23333 12 0 9 
3 1854-06-01 Jun 1854 28333 11 0 6 
4 1854-07-01 Jul 1854 28722 359 0 23 
5 1854-08-01 Aug 1854 30246 828 T 30 
6 1854-09-01 Sep 1854 30290 788 81 70 

Disease.rate Wounds.rate Other.rate 
1 1.4 0.0 7.0 
2 6.2 0.0 4.6 
3 4.7 0.0 2.5 
4 150.0 0.0 9.6 
5 328.5 0.4 11.9 
6 312.2 32.1 Zt 





数据 记录 了 英国 士兵 在 克 里 米 亚 战 争 中 每 月 的 死亡 人 数 。 每 一 行 代表 一 个 月 的 数据 ， 变 量 


包括 如 月 份 、 年 份 、 军 队 规模 ， 以 及 三 种 原因 分 别 造成 的 死亡 人 数 。 每 个 日 期 (Date) K 
疾病 (Disease) 死亡 的 人 数 可 以 很 容易 地 绘制 成 一 张 普通 的 散 点 图 。 你 可 以 尝试 一 下 。 将 














这 些 点 连接 起 来 (第 一 个 月 到 第 二 个 月 、 第 二 个 月 到 第 三 个 月 ， 以 此 类 推 )， 图 会 更 有 条 














Dea 








lty 


E, Ay plot() 添加 参数 type = "b"， 可 以 创建 一 个 这 样 的 基本 折线 图 。 
= "solid"， 指 定 线 的 类 型 。( 线 也 可 以 是 点 、 
信息 。) 下 面 的 脚本 可 以 生成 图 








12-2 的 折线 图 : 











# 图 12-2,4 张 图 

par(mfrow = c(2,2)) # 将 4 张 图 放 在 一 个 页 面 中 
library(HistData) 

attach(Nightingale) 


# 图 12-2a 
plot(Date, Disease, 
type = "b", 
pch = 20, 
lty = "solid", 
main = "a. Line chart of Disease") 


# 图 12-2b 
plot(Date,Disease, 
type = "1", 
lty = "solid", 








你 也 可 以 添加 参数 
虚线 或 其 他 类 型 ， 输 入 ?par 可 查询 更 多 





main = "b. Line chart, Disease, Wounds, Other") 


lines(Date,Wounds, 
Lty = "dashed", 
col = "red", 
lwd = 2) 
lines(Date, Other, 





lty 
col 
Lwd 


"dotted", 
"navyblue", 


2) 


# 图 12-2c 
plot(Date, Disease, 
type = "h", 
Lty = "solid", 
lwd = 20, 
main = " 
Llend="butt") 
lines(Date,Wounds, 
Lty = "solid", 
col "red", 
lwd = 2) 
lines(Date, Other, 
lty = "dotted", 
col = "navyblue", 
lwd = 2) 


# 图 12-2d 
plot(Date, Disease, 
type = "h", 
Lty = "solid", 
lwd = 20, 


main = "d. Add legend, remove box",col="gray67", 


lend ="butt",bty="1L") 
lines(Date, Wounds, 


lty = "solid", 
col = "red", 
lwd = 2) 


lines(Date, Other, 
Lty = "dotted", 
col = "navyblue", 
lwd = 2) 

legend("topleft", 


c. Change Disease to histogram" ,col="gray67", 


c("Death from Disease","Death from Wounds","Other Deaths"), 


text.col = c("gray40", "red", "navyblue"), 


bty = "n", 
cex = .5) 
detach(Nightingale) 


看 一 下 图 12-22, 呈现 该 图 的 另 一 种 方式 是 去 挥 点 ， 使 





甘 成 为 一 条 完全 相连 的 线 ， 可 以 

















通过 把 type = "b" 改 为 type = "U" 来 绘制 这 条 线 ， 结 果 如 图 12-2b 所 示 。 图 12-2b 应 用 





lines() 函数 ， 在 图 上 放置 了 两 条 额 多 





成 的 死亡 人 数 。 


























和 其 他 原因 导致 的 死亡 人 数 。 尽 管 在 区 





12-2c 所 示 。 在 此 有 必要 添加 Lend = "butt", (RETA 














的 线 ， 即 因 创 伤 (Wounds) 和 其 他 原因 (Other) 造 


在 战争 中 ， 死 亡 原因 的 差异 是 惊人 的 。 对 于 许多 战争 来 说 ， 因 疾病 死亡 的 人 数 远 远 多 于 创伤 
12-2b 中 这 种 结果 是 显而易见 的 ， 但 我 们 可 以 通过 一 点 
简单 的 改动 突出 这 一 点 。 请 看 表 12-1 中 参数 type 的 选项 ， 其 中 type = "h" 为 直方 图 ， 如 图 





























圆 角 (line end 或 lend) 变 为 方 角 。 
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a. 因 疾 病死 亡 人 数 的 折线 图 b. 因 疾 病 、 创 伤 及 其 他 原因 死亡 人 数 的 折线 图 
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c. 因 疾 病死 亡 人 数 的 直方 图 
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图 12-2; Nightingale 数据 集中 死亡 原因 的 几 种 折线 图 的 变形 


12-2c 的 呈现 方式 更 有 戏剧 性 ， 它 在 直方 图 中 将 疾病 死亡 人 数 展示 为 灰色 条 ， 仿 佛 笼罩 
战争 的 阴影 。 似 乎 战争 本 身 没 有 那么 可 怕 ， 是 疾病 让 英国 人 措手不及 ， 因 而 加 剧 了 灾难 。 
下 一 步 是 添加 图 例 ， 用 不 同 颜色 区 分 各 种 死因 ， 如 图 12-2d 所 示 。( 如 果 需 要 回顾 legend() 
国 数 ， 请 参考 3.2 节 。) 此 外 ， 图 12-2d 使 用 参数 bty = "U 去 掉 了 图 周围 的 框 。 


表 12-1: 使 用 plLot() 或 Lines( ) 绘 制 线 的 选项 



























































参数 线 的 类 型 

type = "p 点 

type = "l 线 

type = "b 线 和 开放 点 

type = "c" 点 的 位 置 上 的 有 空隙 的 线 
type = "o" HA fil 〈( 即 填充 好 点 的 线 ) 
type = "h" 像 直方 图 那样 的 垂直 线 























(2%) 

















参数 线 的 类 型 
type = "s 台阶 

type = "S 不 同 的 台阶 
type = "n" 不 画图 

lty = "blank" 

lty = "dotted" 

lty = "dashed" 

lty = "dotdash" 

Lty = "Longdash" 

lty = "solid" 

lty = "twodash" 

twd = 1 线 宽 。 默 认为 1。 为 较 粗 的 线 指定 一 个 较 大 的 


值 ， 或 为 较 细 的 线 指定 一 个 较 小 的 值 


最 后 要 谈 到 的 这 张 图 ( 见 图 12-3) 绘制 起 来 似乎 有 点 麻烦 ， 
详细 解释 这 张 图 的 创建 过 程 ， 但 如 果 你 不 想 看 ， 也 可 以 直接 跳 到 本 市 的 最 后 一 段 。 


但 放 在 这 里 有 其 用 意 。 下 面 会 
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图 12-3; Nightingale 数据 集 的 一 个 完整 折线 图 ( 另 见 彩 插 ) 
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以 下 改进 使 图 12-3 更 为 醒目 和 完善 。 


使 用 pLot() 函 数 中 的 参数 main 添 加 标题 ， 同 时 为 坐标 轴 添 加 标签 
我 们 已 经 选择 通过 定义 向 量 t 然后 在 ptot() 中 使 用 main = 
短 。 同 理 ， 这 里 也 为 标签 创建 了 向 量 x 和 y。 


























添加 另 一 条 线 来 表示 每 个 月 的 军队 规模 





这 有 点 环 手 ， 因 为 军队 的 规模 远 远 大 于 死记 人数。 使 用 相同 尺度 会 使 Army 数据 超出 
图 的 范围 ， 或 使 ounds 和 Other 太 小 ， 太 接近 水 平 轴 ， 难 以 明显 呈现 出 来 。 我 决定 将 
以 显示 部 队 的 规模 。 绘 制 




















Army 除 以 20， 并 用 右边 的 第 二 个 垂直 轴 绘 制 新 的 结果 变量 ， 








t， 把 很 长 的 plot 命令 变 





以 不 同 尺 度 测量 的 变量 ， 这 可 能 令 人 疑惑 或 误解 ， 所 以 这 样 做 时 要 非常 小 心 。 在 本 例 








中 ， 我 特意 让 右边 轴 和 左边 轴 的 颜色 、 数 字 大 小 和 线 的 类 型 完全 不 同 ， 以 尽量 清楚 地 表 


明 这 是 两 个 不 同 的 尺度 。 
改进 水 平 轴 的 呈现 方式 





对 于 变量 Date， 图 12-4 只 显示 了 两 个 x 轴 上 的 点 。 我 为 战争 持续 的 24 个 月 创建 了 新 




















的 变量 mnon， 值 为 1~24。 该 变量 在 x 轴 上 表示 。 数 据 集 是 按 月 排序 的 ， 因 此 这 种 方法 可 








行 。 在 plot() 中 ,参数 xaxt = "n" 阻止 打印 x 轴 的 标签 ， 以 便 创建 





带 标 签 的 新 坐标 轴 。 


它 的 标签 将 被 指定 为 每 年 的 三 个 月 ， 足 以 提供 足够 的 细节 ， 但 不 会 过 多 ， 以 至 于 破坏 可 





读 性 。 参 数 at 提供 月 份 值 ， 参 数 labels 提供 月 份 的 名 称 。 
增强 的 图 12-3 的 创建 脚本 如 下 : 

















# 图 12-3 的 脚本 

# 车 还 没 安装 , 则 必须 : 

# install.packages("HistData", dep = T) 
library(HistData) 

attach(Nightingale) 

par(mar = c(6,6,5,5), cex = .8) # 控制 图 片 窗口 的 大 小 




















Army2 = (Army)/20 # 缩小 Army 的 尺寸 使 其 适应 图 像 








= "British Army Deaths, Crimean War" # 缩短 pLot 命 令 长 度 


"Date, by Month, from April, 1854 to March, 1856" 
"Number of Deaths per Month" 
mon = 1:24 # 创建 新 的 变量 , 比 Date 更 易于 处 理 








plot(mon, Disease, 
type = "h", 
lwd = 22, 
col = "gray67", 
lend = "butt", 
Main = t, 
col.main = "maroon", 
ylab = y, 
XLab = x, 
cex.lab = .8, 
las = 1, 
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cex.axis = .9, 














bty = pil, 

xaxt = "n") 
# xaxt = "n” 去 掉 x 轴 标签 ;使 用 axis() 自 定义 坐标 轴 
Lines(mon,Wounds, 

pch = 18, 

col = "red", 

lty = "solid" 

lwd = 2) 


Lines(mon, Other, 
lty = "dotted", 


col = "navyblue", 
lwd = 3) 
Llines(mon, Army2, 
lty = "dashed", 
col = "seagreen4", 
lwd = 2) 
# 水 平 轴 





axis(1, at = c(2,6,10,14,18,22), 

labels = c("May 54","Sep 54","Jan 55","May 55","Sep 55", "Jan 56")) 
# 右边 轴 
axis(4, at = c(0,500,1000,1500,2000,2500), 

labels = c("0", "10K","20K","30K","40K","SOK"), 


las = 1, 

tick = T, 

cex.lab = .6, 

col = "seagreen4", 
col.axis = "seagreen4", 


ylab = "Troop Strength") 


legend("topleft", c("Death from Disease","Death from Wounds", 
"Other Deaths","Troop Strength"), 
text.col = c("gray40","red","navyblue", 


seagreen4"), 


bty = a 
cex = .8) 
detach(Nightingale) 























本 节 曾 述 了 如 何 创建 复杂 折线 图 。 从 前 几 个 例子 可 以 看 出 ， 构 建 此 类 图 需要 创建 多 层 ， 并 
逐 层 应 用 ， 逐 步 制 作 一 张 复杂 的 展示 图 ， 使 我 们 对 最 终 的 结果 有 更 多 控制 。 也 许 图 12-2b 
已 经 满足 了 你 的 需求 ， 不 必 烦 劳 绘制 图 12-3。 不 过 ， 你 也 可 能 想 绘 制 出 真正 引 人 注 目的 视 
































觉 效果 。 有 时 ， 为 了 达到 目的 ， 你 可 能 需要 做 所 有 令 人 厌恶 的 工作 ， 但 你 最 终 可 以 绘制 

















节 中 将 会 看 到 的 那样 。 


12.3 模板 





uy 
an 





真正 漂亮 的 图 。 有 些 时 候 ， 你 可 以 充分 利用 包 的 开发 者 已 经 完成 的 工作 ， 正 如 我 们 在 下 一 


H R 生成 精细 的 基础 散 点 图 会 有 点 麻烦 。 你 也 可 以 利用 plot() 函数 中 的 很 多 可 用 的 参数 来 
定制 图 。 你 可 以 改变 坐标 轴 ， 添 加 标题 ， 改 变 图 符 ， 改 变 背 景 、 标 题 和 点 的 颜色 ， 等 等 。 如 
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前 面 提 到 的 ， 这 种 定制 有 时 工作 量 非 常 大 。 然 而 ， 一 些 包 的 设计 者 已 经 在 他 们 的 包 中 包含 
了 模板 或 风格 样式 ， 使 得 各 种 风格 实现 起 来 很 容易 。 我 喜欢 的 一 个 风格 来 自 LatticeExtra 
包 ， 它 模仿 了 《经 济 学 人 》 厅 志 的 插图 风格 。 以 此 风格 重 做 图 12-lb， 结 果 如 图 12-4 所 示 。 

















图 12-4: 使 用 asTheEconomist() MAU trees 数据 制作 的 点 阵 图 
这 里 用 很 少 的 代码 获得 了 一 张 非常 漂亮 的 图 ， 代 码 如 下 : 


# 使 用 模板 来 生成 图 12-4 

# 若 还 未 安装 , 则 必须 : 

# install.packages("LatticeExtra", dependencies = T) 

library(LatticeExtra) 

attach(trees) 

asTheEconomist(xyplot(Girth ~ Height), xlab = "Height", 
type = "p", with.bg = T) 

detach(trees) 


另 一 套 模板 是 由 epade 包 提 供 的 。scatter.ade() 函数 生成 散 点 图 。 使 用 它 的 参数 waLL， 可 
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以 从 多 个 输出 样式 中 进行 选择 。 参 数 wall 


这 


数 。 欲 获取 更 多 信息 ， 请 输入 ?scatter.ade 查询 。 











个 参数 值 取 1~6 时 则 会 创建 其 他 有 趣 的 医 























9 生成 的 





图 与 plot() 函数 生成 的 图 相似 ， 但 








形 。 图 12-5 中 有 6 张 别 致 的 图 ， 每 张 只 需要 一 
行 代码 。 还 有 关于 点 的 颜色 、 文 本 、 背 景 和 线 的 参数 ， 以 及 图 例 、 线 类 型 、 点 类 型 等 的 参 




















wall = 1 





wall = 2 






























































12-5; 通过 epade 包 中 的 scatter .ade() 函数 生成 的 散 点 图 类 型 


R 
不 





























同 ， 你 可 能 喜欢 也 可 能 不 喜欢 这 些 风格 : 





# 图 12-5 

install.packages("epade") # 若 还 未 安装 
library(epade) 

attach(trees) 

par(mfrow = c(2,3)) 











MAAAR TERE 12-5 中 的 6 张 图 是 多 么 容易 。 如 图 12-7 所 示 ， 它 们 的 颜色 完全 





scatter.ade(Height, Girth, wall = 1, main = "wall = 1") 
scatter.ade(Height, Girth, wall = 2, main = "wall = 2") 
scatter.ade(Height, Girth, wall = 3, main = "wall = 3") 
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scatter.ade(Height, Girth, wall = 4, main = "wall = 4") 
scatter.ade(Height, Girth, wall = 5, main = "wall = 5") 
scatter.ade(Height, Girth, wall = 6, main = "wall = 6") 


detach(trees) 





从 头 开始 构建 图 12-4 和 图 12-5 中 任意 风格 的 图 都 要 花费 很 多 精力 ， 需 要 编写 大 量 代码 。 
然而 ， 包 的 开发 者 与 我 们 分 享 了 他 们 的 劳动 成 果 ， 我 们 可 以 使 用 他 们 提供 的 模板 轻松 生成 
图 形 。epade 包 还 为 菜 些 其 他 函数 提供 了 相似 的 模板 。 在 数 以 千 计 的 R 包 中 搜索 可 能 会 花 
费 大 量 的 上 时间， 但 这 通常 是 值得 的 。 


12.4 增强 的 散 点 图 


要 绘制 散 点 图 ， 除 了 plot() 还 有 许多 其 他 的 R 函数 ， 其 中 一 些 提供 了 大 量 的 增强 功能 。 来 自 car 
包 的 scatter plot() 就 是 一 个 很 好 的 例子 。 图 12-6 展示 了 由 该 函数 生成 的 图 及 以 下 附加 信息 : 


。 空白 处 的 箱 线 图 ， 展 示 每 个 变量 的 分 布 ; 
。 回归 线 (直线 ) ; 

。 网 格 ; 

。 平 请 的 实 线 ， 以 及 散布 测量 值 的 虚线 。 
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12-6: 由 car BẸ scatterplot() 函数 生成 的 周 长 和 高 度 的 散 点 图 
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平滑 器 (smoother) 是 一 种 工具 ， 用 于 使 散 点 图 中 数据 的 模式 更 易于 识别 。 有 几 种 类 型 的 
平滑 器 ， 但 它们 在 给 定 x 值 (或 相近 的 几 个 x 值 ) 处 都 显示 了 > 的 中 心 ， 连 接 这 些 点 构成 
的 线 (通常 是 曲线 ) 相对 平滑 。 图 12-6 是 一 张 使 用 了 平滑 器 的 散 点 图 ， 平 滑 处 理 后 的 线 为 
实 线 。 你 可 以 用 参数 smoother 选择 一 种 平滑 方法 ， 图 12-6 使 用 的 是 默认 方法 ， 即 局 部 加 
权 回 归 (loess 或 locally weighted regression) 。 


使 用 scatterplot() 也 可 以 轻松 处 理 分 组 回归 线 、 异 常 值 的 识别 和 其 他 工作 ， 这 些 都 超出 
了 本 书 的 范围 。 欲 知 更 多 信息 ， 请 输入 ?sp 查询 。 生 成 图 12-6 的 代码 如 下 : 





















































# 图 12-6 

library(car) 

attach(trees) 

sp(Height, Girth) # 注意 缩写 sp 
detach(trees) 














除了 我 们 在 上 一 节 中 看 到 的 模板 ，epade 包 中 的 scatter.ade() 函数 还 有 其 他 几 个 显著 特 
点 。 它 可 以 按 组 绘制 数据 ， 也 可 以 绘制 大 小 不 同 的 点 来 代表 幅度 ， 还 可 以 在 图 上 放置 线性 
回归 、 局 部 加 权 回 归 ， 或 者 多 项 式 线 ， 且 处 理 图 例 相 当 容 易 。 图 12-7 显示 了 用 scatter. 
ade() 为 按照 “处 理 ” 和 “未 处 理 ” 分 组 的 数据 绘图 的 一 个 例子 。 数 据 来 自 实验 ， 想 获取 
关于 实验 的 信息 ， 可 以 输入 2Puromycin 查询 。 
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B 12-7; 通过 epade 包 中 的 scatter .ade() 为 Puromycin 数据 绘制 的 图 
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生成 图 12-7 的 代码 如 下 : 








# 图 12-7 

library(epade) 

attach(Puromycin) 

scatter.ade(conc, rate, group=state, 
col = c("royalblue3", "siennai"), 
Legendon = "topleft", wall = 6, 
main = "Puromycin dataset") 

detach(Puromycin) 











设计 lattice 包 的 目的 是 为 了 生成 网 格 图 ，2.3.2 节 曾 提 到 过 。 这 或 许 是 回顾 该 节 的 大 好 时 
机 。 图 2-3 所 示 为 网 格 散 点 图 的 例子 。 图 12-8 是 用 lattice 为 Puromycin 数据 绘制 的 图 ， 在 
































不 同 的 窗口 或 面板 (panel) 分 别 展 示 处 理 和 未 经 处 理 的 对 象 。 请 将 其 与 








图 12-7 进行 比较 。 
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12-8; Puromycin 数据 通过 lattice 包 中 的 xyplot() 绘制 成 网 格 图 





A 
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生成 图 12-8 的 代码 如 下 : 














# 图 12-8 

library(lattice) 
attach(Puromycin) 
xyplot(rate ~ conc | state) 
detach(Puromycin) 


散 点 图 或 许 是 最 有 用 和 最 常用 的 图 。 其 他 许多 种 类 的 图 (包括 后 续 章 节 中 的 几 种 图 ) 都 是 
基于 散 点 图 的 。R 为 这 类 图 提供 了 很 多 实现 ， 其 中 一 些 已 经 在 本 章 中 讨论 过 。 细 想 一 下 ， 
本 音 各 式 各 样 的 散 点 图 都 是 由 R 绘制 的 ， 也 许 本 章 的 图 函数 对 你 来 说 就 够 用 了 ， 但 如 果 你 
愿意 搜索 ， 在 R 中 还 能 找到 更 多 的 散 点 图 函数 。 



















































































x 和 y: 为 什么 
有 些 生成 散 点 图 的 函数 ， 比 如 pLot() 和 scatter.ade(), 希望 x 和 Jy 的 变量 名 以 x,y 
格式 生成 列表 。 另 一 些 函 数 ， 尤 其 是 xyplot()， 则 期 望 得 到 y~x 或 y~x | ZERKA 
式 ， 其 中 z 是 条 件 变量 。 还 有 一 些 函 数 ， 如 scatter plLot()， 可 以 接受 以 上 任意 一 种 
ESL, HK, plot() 也 是 如 此 ， 尽 管 它 的 帮助 文件 没 这 么 说 。 许 多 (或 许 是 大 多 数 ) 
R 肠 数 都 能 接受 其 中 一 种 形式 或 两 种 都 能 接受 ， 有 时 也 包括 相近 的 变 体 。 











12.4.1 练习 12-1 

如 果 保 存 了 练习 1-2 中 使 用 的 emissions 数据 集 ， 现 在 你 可 以 使 用 如 下 命令 检索 它 : 
> load("emiss.rda") 

如 果 没 有 保存 ， 现 在 输入 部 分 数据 ， 建 立 三 个 向 量 : 
> Year = c(2004:2010) 


> Europe = c(7.9, 7.9, 7.9, 7.8, 7.7, 7.1, 7.2) 
> Eurasia = c(8.5, 8.5, 8.7, 8.6, 8.9, 8, 8.4) 




















请 绘制 一 张 折线 图 ， 展 示 欧 洲 和 欧 亚 大 陆 七 年 间 的 排放 量 。 绘 制 不 同 的 线 ， 通 过 颜色 和 线 
类 型 进行 区 分 ， 并 包含 图 例 。 你 的 图 应 该 和 图 12-9 类 似 。 
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排放 量 
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12-9: 欧 亚 大 陆 和 欧洲 排放 量 的 折线 图 


12.4.2 练习 12-2 

为 银河 系 之 外 星云 的 Velocity (速度 , x 4h) 和 Distance (FRR, y 4h) 简单 绘制 一 张 图 ， 
你 可 以 在 来 自 sleuth2 包 的 case0701 数据 集中 找到 它 。 这 两 个 变量 之 间 有 什么 关系 ?使 用 
你 自己 选择 的 模板 来 制作 更 有 趣 的 数据 展示 。 
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处 理 大 数据 集 

有 时 ， 在 大 数据 集 上 应 用 散 点 图 等 技术 可 能 很 难 。 以 来 自 car 包 的 一 个 数据 集 为 例 ，Vocab 
中 有 21 000 多 个 观测 值 ， 包 括 一 些 基 本 的 人 口 统计 数据 和 词汇 测试 成 绩 。 加 载 包 并 查看 数 
据 (使 用 head() 命令 时 要 当心 ， 一 不 小 心 就 会 打印 整个 数据 集 )， 代 码 如 下 : 














> library(car) 
> attach(Vocab) 
> head(Vocab) 


year sex education vocabulary 
20040001 2004 Female 9 3 
20040002 2004 Female 14 6 
20040003 2004 Male 14 9 
20040005 2004 Female 17 8 
20040008 2004 Male 14 1 
20040010 2004 Male 14 7 


vocabulary (词汇 量 ) 与 education (教育 水 平 ) 的 关系 值得 探讨 。 低 学 历 的 人 词汇 成 绩 偏 
低 ， 分 数 随 着 受 教 育 水 平 的 提升 而 提升 ， 这 种 看 似 合理 的 预期 是 否 符合 实际 情况 ? 散 点 图 
应 该 可 以 解答 这 个 问题 ， 创 建 图 的 方法 如 下 : 


























# 图 13-1 

library(car) 

attach(Vocab) 
plot(education, vocabulary) 
detach(Vocab) 
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图 13-1 中 的 散 点 图 并 没有 呈现 清晰 的 趋势 ! 没有 线条 或 点 形成 的 带 鲜明 地 体现 出 我 们 期 望 
看 到 的 关系 。 该 图 左上 角 和 右 下 角 有 少量 空白 ,但 其 他 地 方 的 粒子 数 看 起 来 相同 。 
































vocabulary 





education 











13-1; education 和 vocabulary 的 散 点 图 











这 两 个 变量 是 离散 的 〈discrete) ， 也 就 是 说 ， 尽 管 它们 是 数值 型 而 不 是 类 别 型 ， 但 在 其 
值 范围 内 仍然 上 只 取 有 限 的 几 个 值 。 教 育 水 平 是 以 年 为 单位 的 整数 ， 一 个 人 可 以 接受 12 
的 教育 ， 而 不 能 接受 12.4 年 或 10.75 年 的 教育 。 词 汇 量 则 用 回答 正确 的 题目 数量 来 测量 。 
vocabulary 仅 有 0~10 这 11 个 值 ， 而 education 只 取 0~20 这 21 个 值 ， 图 上 仅 有 11x21 
231 个 位 置 可 以 出 现 点 ， 但 参与 调查 的 人 数 为 21 00044, SR, KERER LAS bs 
加 。 我 们 能 做 些 什么 呢 ? 


在 第 3 章 中 ， 我 们 用 称 作 “ 持 动 ”(jittering) 的 技巧 处 理 带 状 图 中 类 似 的 问题 。 这 或 许 也 
可 以 在 此 发 挥 作用 。 然 而 ， 如 果 点 上 下 跳动 ， 那 么 词汇 成 绩 看 起 来 就 不 像 整 数 了 ， 这 样 一 
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来 ,我们 可 能 需要 进行 更 精确 的 测试 。 让 我 们 用 带 有 参数 jitter 的 scatterplot() 尝试 一 
下 ， 代 码 如 下 : 


# 图 13-2 

library(car) 

attach(Vocab) 

sp(education, vocabulary, jitter = list(x = 2, y = 2), 
smoother = F, spread = F, reg.line = F) 





结果 如 图 13-2 所 示 。 





vocabulary 











education 


图 13-2: 带 有 拌 动 的 散 点 图 























图 13-2 对 图 13-1 做 了 不 少 改进 ， 现 在 我 们 可 以 看 到 一 个 清晰 的 图 案 。 使 用 下 面 的 参数 可 
以 控制 抖动 量 : 























jitter = list(x = 2, y = 2) 











试 着 把 拌 动 量 从 2 改 为 其 他 值 ， 看 看 会 有 什么 样 的 效果 。 
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前 文中 提 到 过 另 一 种 方法 ， 就 是 采用 较 小 的 绘图 符号 ， 但 对 于 本 例 ， 这 个 技巧 并 不 合适 。 
它 不 会 将 这 张 图 中 的 点 分 开 ， 只 能 使 它们 更 小 。 然 而 ， 缩 小 点 并 同时 增加 拌 动 ， 可 使 其 更 
清楚 一 点 。 你 可 以 尝试 一 下 。 


Ase 
你 还 可 以 绘制 向 日 英 图 (sunflower plot) 。 根 据点 的 数量 ， 这 种 类 型 的 图 在 不 同位 置 使 用 不 
同 的 符号 。 来 看 下 面 的 代码 : 


# 图 13-3 
library(car) 
attach(Vocab) 
sunflowerplot(education, vocabulary, 
main = "Sunflower Plot", 
col.main = "deepskyblue3", 
family = "HersheySerif", 
font.lab = 3) # x 和 y 标 注 为 斜体 
detach(Vocab) 



































结果 如 图 13-3 所 示 。 





10 


vocabulary 





education 











图 13-3: education 和 vocabulary Habe 
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图 13-3 PATA A Z RAFFA aR AAAI. MS T A SE ER UH 
看 看 左上 角 的 点 ， 那 是 一 个 带 有 两 片花 办 (petal) 的 墨 点 ， 代 表 了 两 个 观测 值 。( 实 际 上 
在 参加 调查 的 21 000 人 中 ， 有 两 个 人 没有 接受 教育 ， 却 在 词汇 测试 中 拿 到 了 最 高 分 ! ) 而 
左下 角 的 点 说 明 有 一 个 受过 20 年 教育 的 人 (博士? 硕士 ? 双 硕 士 学 位 ?) 在 词汇 测试 中 
没有 答对 任何 问题 。 这 是 否 体现 了 数据 的 质量 ?是 否 出 现 了 错误 ? 回 到 图 的 左上 方 ， 从 顶 
部 向 右边 移动 ， 我 们 会 看 到 接 下 来 的 两 点 ， 它 们 各 代表 一 个 观测 值 ， 接 着 有 一 个 点 带 两 个 
HEME, A ILE (代表 九 个 观测 值 )， 再 下 一 个 点 有 三 个 花 闪 ， 等 等 。 灰 色 的 
实心 圆 代 表 许 多 的 观测 值 ， 多 到 我 们 可 以 不 再 计算 花 泊 数量 。 


虽然 这 张 图 仍然 没有 提供 理想 的 视觉 分 辩 率 ， 但 它 确实 相当 好 地 表明 了 图 中 任意 位 置 上 点 
的 密度 。 看 来 预期 的 受 教育 程度 和 词汇 量 之 间 的 关系 古 正确 的 。 








































































































变 字体 
你 是 否 注意 到 图 13-3 中 的 字体 发 生 了 改变 ? R 中 有 许多 可 供 选择 的 字体 。 你 可 以 使 
用 par() 命令 中 的 参数 family 请 求 字 体 ， 它 会 影响 之 后 给 出 的 任何 命令 ， 直 到 发 出 一 
个 新 的 par() 命令 。 对 于 用 一 条 命令 创建 的 图 ， 大 多 数 绘图 命令 也 会 接受 参数 family。 
关于 可 用 字体 的 更 多 信息 ， 请 输入 ?Hershey 或 者 demo(Hershey) 查询 。 
另外 ， 你 可 以 通过 参数 font (或 者 font.axis, font.lab, font.main, font.sub) 指定 
字体 类 型 ; 


e 1 = 纯 文 本 (plain text) 
2= #6 (bold) 

e 3= 41K (italic) 
4 
5 





= 粗 余 体 (bold italic) 
= 符号 字体 (symbol font) 


注意 ， 并 不 是 所 有 的 字体 家 族 都 包括 所 有 的 字体 类 型 (比如 粗 儿 体 、 超 粗 体 、 压 缩 
体 ) 。 欲 知 更 多 信息 ， 请 输入 ?Hershey 进行 查询 。 











平滑 散 点 图 
CER 中， 有 更 好 的 图 形 化 工具 可 以 处 理 高 密度 数据 的 问题 。snoothscatter() 函数 就 采用 
了 不 同 的 方法 ， 代 码 如 下 ; 


# 图 13-4 
library(car) 
attach(Vocab) 
smoothScatter(education, vocabulary, 
las = 1, 
family = "HersheyGothicGerman", 
main = "Smooth Scatter Plot", font=3) 
# las = 1 旋转 y 坐 标 轴 上 的 数字 
detach(Vocab) 








结果 如 图 13-4 所 示 。 








平滑 散 点 图 
10 
8 
S 6 
Re 
E 
3 
sQ 
g 
3 
2 4 
2 
0 
0 5 10 15 20 
education 











图 13-4; education 和 vocabulary 的 平滑 散 点 图 


图 13-4 的 平滑 散 点 图 使 用 色调 和 颜色 强度 区 分 高 密度 区 与 低 密度 区 。 这 不 仅 比 向 日 葵 图 
更 加 美观 ， 而 且 也 提供 了 更 好 的 分 辨 率 。 例 如 ， 图 中 最 大 的 黑 点 表示 ， 受 过 大 约 12 年 教 
A (高 中 毕业 ) 的 人 大 多 取得 了 5~7 分 的 词汇 成 绩 。 受 过 大 约 14 年 教育 (社区 学 院 ) 和 
16 年 教育 (大 学 毕业 生 ) 的 人 在 图 中 构成 了 黑色 的 带 状 区 域 。 在 向 日 区 图 上 是 看 不 到 这 
些 情况 的 。 














向 日 获 图 很 好 地 展示 了 主要 趋势 ， 甚 至 比 平滑 散 点 图 更 胜 一 筹 。 而 平 请 散 点 图 显示 了 向 日 
葡 图 可 能 错过 的 细节 。 在 研究 数据 的 时 候 ， 以 儿 种 不 同 的 方式 来 整理 数据 通常 是 一 个 好 主 
意 。 尽 管 数 据 最 后 可 能 以 平滑 散 点 图 来 呈现 为 佳 ， 但 也 不 一 定 总 是 如 此 。 
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hexbin 图 





大 数据 集 还 可 以 选择 进行 分 组 (binning)。 这 和 向 日 给 图 相似 ,但 重生 的 点 表现 为 区 间 





(bin) 中 的 总 数 ， 而 不 是 点 的 形状 。hexbin 包 中 的 hexbin() 函数 可 以 实现 分 旨 
展示 了 一 个 例子 。 这 里 可 以 使 用 多 种 颜色 梯度 ， 比 如 colramp = 选项 。( 获 取 更 多 信 








输入 2colorramps 查询 。) 示例 中 使 用 了 颜色 梯度 BTC。 请 注意 ， 











H, K| 13-5 


AB, if 





右边 说 明了 特定 颜色 表 


示 的 数字 。 还 有 许多 选项 可 用 ， 比 如 平滑 处 理 、 网 格 hexbin、 添 加 直线 、hexbin 





等 。 获 取 更 多 信息 ， 请 输入 ?hexbin 查询 。 





图 矩阵 








Vocabulary 








0 5 10 15 20 
Education 














图 13-5: 使 用 hexbin() 函数 分 组 的 例子 (ANKH) 





生成 图 13-5 的 代码 如 下 。 











# 图 13-5,hexbinning 

install.packages("hexbin", dependencies = T) 

Library(car) 

Llibrary(hexbin) 

plot(hexbin(Vocab$education, Vocab$vocabulary, xbins = 10), 
xlab = "Education", ylab = "Vocabulary", colramp = BTC) 





qo} 
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参数 xbins 并 不 总 是 必要 的 ， 尽管 在 本 例 中 ， 它 非常 有 帮助 。 尝 试 不 使 用 参数 xbins 绘制 该 
图 ， 看 看 发 生 了 什么 。xbins 的 默认 值 ( 沿 x 轴 的 区 间 数 ) 为 30。 参 数 xbins = 19 使 区 间 
宽度 足以 填补 空白 。 数 字 越 大 ， 区 间 越 小 ， 离 得 越 远 ， 反 之 ， 数 字 越 小 ， 区 间 越 大 ， 离 得 
越 近 。 

如 果 没 有 受到 下 述 限 制 ， 平 请 散 点 图 也 许 更 加 令 人 满意 。 首 先 ， 数 据 是 离散 的 ， 只 包括 
数 ， 所 以 只 能 有 11 个 词汇 等 级 和 21 个 教育 水 平 。 甚 次， 为 了 让 相近 的 颜色 易于 辨别 ， 
彩 渐变 的 设计 只 有 这 么 多 的 层次 。 因 此 ， 这 里 最 多 只 能 有 16 级 颜色 。 











(Re 























hexbin 图 和 平滑 散 点 图 是 伪 色 图 (false-color plot) 的 两 种 类 型 ， 这 类 图 使 用 颜色 梯度 表示 
数量 和 强度 。 本 书后 面 要 讨论 的 热 图 (heat map plot) 是 另 一 种 类 型 的 伪 色 图 。 














练习 13-1 

为 nlme 包 中 的 MathAchieve 数据 集 的 MathAch (y 轴 ) 和 SES (x 轴 )， 绘 制 一 个 简单 的 散 点 
图 。 图 中 是 否 存在 明显 的 趋势 ?其 他 类 型 的 图 是 否 可 以 更 好 地 揭示 数据 间 的 关系 ? 尝试 绘 
制 本 章 中 介绍 的 这 几 种 图 。 哪 种 最 有 局 发 ， 哪 种 最 模糊 不 清 ? 
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第 14 章 


Bland-Altman 





如 果 对 编程 不 感 兴趣 ， 你 可 以 跳 过 本 章 ， 不 必 担 心 错过 什么 。 





评估 测量 的 可 靠 性 

本 章 介绍 R 的 灵活 性 ， 在 基础 R 中 不 可 能 找到 此 处 研讨 的 图 表 类 型 ， 在 成 千 上 万 的 可 用 包 中 
找到 这 样 一 个 专门 的 类 型 也 要 花费 精力 。 我 决定 编写 自己 的 函数 来 完成 这 项 任务 ， 并 已 在 书 
中 介绍 。 编 写 函 数 的 过 程 中 ， 我 发 现 至 少 有 两 个 包 有 该 图 ， 本 章 会 介绍 其 中 的 一 个 。 本 章 涉 
及 的 输入 比 其 他 大 多 数 章 节 稍 多 ， 需 要 将 一 个 数据 集 输 入 电子 表格 或 文本 文件 ， 还 要 输入 一 
个 相对 较 长 的 R 函数 。 本 章 结尾 介绍 了 一 个 较 短 版 本 的 函数 ， 如 果 你 愿意 ， 可 以 替换 使 用 。 


Bland-Altman 图 用 于 评估 两 项 测量 技术 之 间 的 一 致 性 ， 或 者 测量 的 可 靠 性 / 可 重复 型 。 它 
也 被 称 为 “Tukey 平均 差 图 ”。 


















































Bland 和 Altman (1986) 给 出 了 表 14-1 中 列 出 的 最 大 呼 气流 速 (PEFR) 的 测量 数据 ， 数 
据 以 升 /分 为 单位 ， 测 量 使 用 了 两 种 不 同类 型 的 计量 器 一 一 Wright 流 计量 器 和 迷你 Wright 
流 计量 器 。 每 个 流 计量 器 对 同一 对 象 进行 两 次 测量 ， 目 的 是 确定 迷你 流 计量 右 和 Wright 流 
计量 器 的 读数 是 否 基 本 相同 ， 从 而 用 前 者 取代 后 者 进行 标准 测量 。 注 意 ， 这 不 是 一 个 相关 
问题 ( 详 见 16.2 节 )。 在 这 里 ， 两 种 方法 密切 关联 ， 甚 至 完全 相关 都 是 不 够 的 ， 测 量 本 身 
必须 是 可 互 换 的 。 也 就 是 说 ， 我 们 需要 知道 两 个 流 计量 器 是 否 能 够 得 到 相同 的 结果 。 
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7214-1: Bland-Altman PEFRAGE 





WR Wright1 Wright2 迷你 1 迷你 2 
1 494 490 512 525 
2 395 397 430 415 
3 516 512 520 508 
4 434 401 428 444 
5 476 470 500 500 
6 557 611 600 625 
J: 413 415 364 460 
8 442 431 380 390 
9 650 638 658 642 
10 433 429 445 432 
11 417 420 432 420 
12 656 633 626 605 
13 267 275 260 22T 
14 478 492 477 467 
15 178 165 259 268 
16 423 372 350 370 
17 427 421 451 443 





将 数据 输入 电子 表格 ， 并 保存 为 以 BlandAltmanPeakFlow.csv 为 名 的 .csv 文件 。 使 用 如 下 


命令 


， 把 该 数据 读 取 到 名 为 Flow 的 R 数据 框 : 


Flow <- read.csv("BlandAltmanPeakFlow.csv", header=TRUE) 





接着 使 用 下 面 的 命令 ， 核 实数 据 和 表 14-1 中 的 数据 是 否 相同 : 











head( Flow) 








下 列 代码 中 的 R 函数 将 生成 图 14-1 中 展示 的 Bland-Altman 图 。 这 就 是 一 张 17 个 点 的 散 点 


图 ， 一 个 点 对 应 研究 中 的 一 个 对 象 。 图 上 的 点 (ry) 被 定义 为 x = 一 个 对 象 的 两 个 测量 值 



































平均 值 ，y = 两 个 测量 值 之 间 的 差 值 。 函 数 定义 如 下 : 


[ni 











# 图 14-1 中 的 结果 ,本 章 末 有 较 短 的 版 本 


baplot <- function(meas1, meas2){ 











# 计算 平均 值 和 偏差 
ave = (meas1 + meas2)/2 
dif = meas1 - meas2 


# 为 参考 线 计 算 参数 
std = sd(dif) 
mdif = mean(dif) 
mdrnd = round(mdif ,3) 
mxav = max(ave) - (max(ave) - min(ave))/12 





的 
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BS 4 


upperci = round((mdif + std*1.96), 3) 
lowerci = round((mdif - std*1.96), 3) 
maxx = 1.05*(max(ave)) 

minx = 1.05*(min(ave) ) 

maxy = max(upperci,max(dif)) 

miny = (min(lowerci,min(dif))) 


# 绘制 点 
plot(ave,dif, 
pch = 16, col = "deepskyblue3", 
xLim = c(minx,maxx), ylim = c(1.1*miny, 1.1*maxy), 
main = "Bland-Altman Plot", 
col.main ="deepskyblue4", 
xlab ="Average of two methods", 
ylab ="Difference between two methods", las=1) 


# 绘制 参考 线 
abline(h = mdif, 





lty = "solid", col = "grey75", lwd = 2) 
abline(h = mdif + std*1.96, 
Lty ="dotted", col = "grey75", lwd = 2) 


abline(h = mdif - std*1.96, 
Lty = "dotted", col = "grey75", lwd = 2) 











# 在 参考 线 周围 添加 文本 


text(mxav, mdif, 








labels = "mean difference", 
pos = 3, 
cex = .7) 


text(mxav, mdif, 
labels = mdrnd, 
pos = 1, 
cex = .7) 
text(mxav, upperci, 
labels = "upper 95% Limit of agreement", 
pos = 3, 
cex = .7) 
text(mxav, upperci, 
labels = upperci, 


pos = 1, 
cex = .7) 
text(mxav, Lowerci, 
labels = "Lower 95% Limit of agreement", 
pos = 3, 
cex = .7) 


text(mxav, Lowerci, 
labels = lowerci, 
pos = 1, 
cex = .7) 


} 
把 国 数 保存 到 文件 的 代码 如 下 : 


save("baplot",file = "baplot") 
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在 输入 并 保存 了 数据 和 函数 之 后 ， 你 可 以 开启 R 会话 并 绘制 该 数据 的 图 (如 图 14-1 所 
示 )， 比 较 wright1l 和 mini1。 使 用 如 下 命令 来 实现 该 操作 : 














# 图 14-1 

Flow <- read.csv("BlandAltmanPeakFlow.csv", header = TRUE) 
load("baplot") 

baplot(Flow$wright1, FlowSmini1) 





Bland-Altman 


于 95% 的 上 限 
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两 种 方法 的 差 值 
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于 95% 的 下 限 


-78.097 








300 400 500 600 700 





两 种 方法 的 平均 值 











14-1; PEFR 数据 的 Bland-Altman 图 ， 使 用 baplot() 函数 生成 








14-1 为 每 一 个 对 象 显示 了 一 个 点 。 点 代表 了 对 象 的 两 个 测量 值 的 平均 值 (水 平 轴 ) 以 及 
两 个 测量 值 间 的 差 值 (垂直 轴 )。 图 中 有 三 条 参考 线 。 实 线 表示 平均 差 (在 比较 研究 中 称 
为 偏差 )。 虚 线 表 示 协 议 限制 (limits of agreement)。 要 计算 协议 限制 ， 首 先 要 找 出 差异 的 
平均 值 ( 称 之 为 m) 和 差异 的 标准 差 ( 称 之 为 s)。 因 此 ， 上 限 和 下 限 如 下 : 























m+ 1.96 * s 





如 果 你 更 喜欢 有 参考 线 而 没有 标签 的 图 ， 在 baplot() 函数 中 删除 text 表达 式 即 可 。 
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图 14-1 中 的 值 和 Bland 和 Altman (1986) 中 值 的 差异 是 舍 入 误差 造成 的 。 
baplot() 函数 小 数位 更 多 ， 而 且 使 用 标准 差 为 1.96 的 精确 乘 数 ， 而 不 是 四 使 
五 人 为 2。 在 实践 中 ， 这 些 差异 是 微不足道 的 。 














如 果 没 有 系统 的 偏差 ， 点 会 围绕 平均 值 参 考 线 聚集 成 带 。 协 议 限 制 应 不 大 于 临床 可 接受 的 
误差 。 这 个 例子 中 的 协议 限制 相当 大 ， 最 大 接近 80 升 /分 ， 临 床上 不 可 接受 。 两 种 方法 之 
间 的 差异 可 能 与 两 个 测量 的 平均 值 有 关 。 注 意 ， 平 均值 为 400 附近 的 集群 的 差异 较 大 ， 平 
均值 约 为 200 处 有 一 极 值 。 看 来 迷你 流 计 量 器 不 能 进行 检 代 标准 方法 。 然 而 ， 这 个 结论 基 
于 一 个 非常 小 的 样本 。 这 里 的 明显 差异 在 更 大 的 样本 中 可 能 不 会 那么 明显 。 

















这 种 图 的 另 一 种 用 途 是 比较 针对 同一 对 象 的 重复 测量 。 例 如 ， 你 可 以 通过 为 变量 wright1 
和 wright2 绘图 来 研究 标准 测量 方法 的 可 靠 性 。 这 一 点 至 关 重 要 。 如 果 Wright 流 计量 器 对 
同一 对 象 的 测量 互 不 相同 ， 那 么 试图 评估 与 迷你 流 计量 器 的 一 致 性 是 没有 什么 意义 的 。 生 
成 这 种 图 的 代码 如 下 : 


# 图 14-2 
baplot(Flow$wright1, Flow$wright2) 











重复 测量 的 实验 结果 如 图 14-2 所 示 。 








Bland-Altman 
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° 大 于 95% 的 上 限 





两 种 方法 的 差 值 








200 300 400 500 600 
两 种 方法 的 平均 值 














14-2: wright1 和 wright2 的 对 比 。 每 一 个 对 象 都 用 同一 种 仪器 测量 两 次 
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大 多 数 差异 是 相当 小 的 ，17 个 对 象 中 有 两 三 个 显示 出 约 £50 的 差异 。 该 结果 暴露 了 流 测 
量 的 可 靠 性 问题 。 对 更 大 的 样本 进行 研究 也 许 能 进一步 解答 这 个 问题 。 




















epade 包 提 供 了 几 个 绘图 工具 ， 甚 中 一 个 工具 生成 的 Bland-Altman 图 和 我 们 的 图 非常 相似 ， 
实现 代码 如 下 : 











# 图 14-3 

install.packages("epade") # 若 还 未 安装 

library(epade) 

Flow <- read.csv("BlandAltmanPeakFlow.csv", header = TRUE) 
bland.altman.ade(Flow$Swright1, Flow$minii, fitline = 0) 











比较 一 下 图 14-3 和 图 14-1 的 结果 。 该 函数 也 允许 在 图 上 放置 回归 线 ， 可 以 是 线性 的 
(linear)、 多 项 式 的 (polynomial) 或 者 局 部 加 权 回 归 的 (loess)。 要 查看 帮助 文件 ， 请 输入 
如 下 命令 : 




















> library(help = epade) 





Bland-Altman 
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14-3; 来 自 epade 包 的 Bland-Altman 
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在 本 章 中 ， 我 们 已 经 看 到 了 如 何 绘 制 基础 R 包 中 不 提供 的 图 类 型 。 你 可 以 编写 并 保存 一 个 











函数 ， 多 次 使 用 它 实现 绘图 。 我 们 也 比较 了 一 个 包 中 提供 的 类 似 但 并 不 完全 相同 的 图 ， 你 
可 以 下 载 这 个 包 并 将 其 添加 到 R 中 。 这 表明 了 R 的 灵活 性 和 可 扩展 性 。 由 此 可 知 ， 为 工作 
选择 合适 的 工具 时 要 谨慎 。baplot() 的 例子 简单 演示 了 如 何 编 写 一 个 函数 。 需 要 注意 的 是 ， 











baplot() 也 有 局 限 性 ， 例 如 ， 它 不 能 











企 缺 少 值 的 情况 下 正常 运行 ， 而 且 也 不 提供 任何 选项 











(比如 在 图 上 添加 回归 线 )。 如 果 你 要 求 不 多 ， 用 这 个 函数 就 很 好 。 你 可 以 将 baplot() 和 一 
个 更 复杂 的 函数 (比如 epade 中 的 函数 ) 进行 对 比 ， 这 会 很 有 趣 。 输 入 没有 括号 的 函数 名 
称 ， 可 以 查看 其 代码 (当然 ， 前 提 是 你 已 经 安装 并 加 载 了 epade) ， 如 下 所 示 。 














bland.altman.ade # 展示 此 函数 的 代码 


练习 14-1 
选择 本 章 介 绍 的 一 张 Bland-Altman 图 





论 是 什么 ?两 种 方法 可 以 互 换 吗 ? 


较 短 版 本 的 baplot() 





， 为 ResearchMethods 包 中 的 MFSV 数据 绘图 。 你 的 结 











如 下 代码 是 较 短 版 本 的 baplot()， 没 有 那 两 条 参考 线 。 你 或 许 想 以 更 少 的 输入 尝试 用 户 自 


定义 的 函数 。 


baplot <- function(meas1,meas2){ 


ave = (measi + meas2)/2 
dif = measi - meas2 
mdif = mean(dif) 
plot(ave,dif, 
pch = 16, 
main = "Bland-Altman Plot", 


xlab = "Average of two methods", 
ylab = "Difference between two methods", las = 1) 


abline(h = mdif, 


Lty = "solid", col = "grey75", 


} 


lwd = 2) 
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00 图 


比较 数字 集合 























比较 两 个 数字 集合 的 分 布 可 能 是 非常 有 帮助 的 ， 例 如 ， 比 较 两 个 变量 或 两 个 向 量 。 两 个 数 
字 集 合 可 能 都 是 测量 值 集合 ， 或 者 其 中 一 个 可 能 是 理论 分 布 。 例 如 ， 我 们 可 能 希望 知道 特 
定 变 量 与 理论 上 的 “ 正 态 分 布 ” 的 比较 情况 会 是 怎样 。 








在 美国 和 世界 上 其 他 的 许多 地 区 ， 顾 客 给 服务 人 员 小 费 是 一 种 习俗 。 在 餐馆 的 食客 之 间 ， 


给 多 少 小 费 是 一 个 经 常 讨论 的 话题 。 














> library(reshape2) 
> attach(tips) 


> head(tips) 
total_bill 
16.99 
10.34 
21.01 
23.68 
24.59 
25.29 


NA 和 上 WP 请 


tip sex smoker 
1.01 Female No 
1.66 Male No 
3.50 Male No 
3.31 Male No 
3.61 Female No 
4.71 Male No 





reshape2 包 中 有 一 个 tips 数据 集 ， 是 


day 
Sun 
Sun 
Sun 
Sun 
Sun 
Sun 


理 的 自己 的 小 费 清单 。 看 看 这 个 有 趣 的 数据 集 ， 如 下 所 示 : 


time size 
Dinner 
Dinner 
Dinner 
Dinner 
Dinner 
Dinner 


BRBNWWD 


一 名 服 


务 员 整 


现在 ,我们 尝试 来 了 解 变 量 tip 的 更 多 信息 。 首 先 ， 小 费 是 怎样 分 布 的 呢 ? 我 们 可 以 绘制 
tip 的 密度 图 ， 代 码 如 下 : 


128 








# 图 15-1a 











Llibrary(reshape2) 


attach(tips) 
par(mfrow = c(3,2)) 
plot(density(tip), 
main = "a. Density(tip)", 
col = "blue", 
lwd = 2) 


如 图 15-1a 所 示 ， 分布 呈 偏 斜 状 ， 右 侧 有 一 条 长 长 的 尾巴 。 换 句 话 说 ， 一 些 顾客 给 的 小 费 
相对 较 多 ， 但 大 多 数 顾 客 的 小 费 都 在 2~4 美元 左右 。 这 一 点 很 重要 ， 因 为 许多 统计 分 析 方 





法 都 依赖 于 数据 至 少 近似 正 态 分 布 ， 或 几乎 与 钟 形 曲 线 一 致 。 





小 费 的 多 少 通常 依赖 于 账单 上 的 消费 金额 。 本 章 结尾 的 习题 部 分 会 
小 费 和 消费 金额 的 关系 。 





尝试 探讨 





























a. 密度 图 (tip) b. 密度 图 (tip) 与 正 态 分 布 
3 3 
S 
i a 
期 33 H 
8 ° 
fos} fo} 
0 2 4 6 8 10 4 2 0 2 4 6 8 10 
N=244 4h = 0.3495 N=1000000 “带宽 = 0.05674 
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3S 
© 
o 
4 2 0 2 4 6 8 5 2 A 6 村 8 8 
N = 1000000 带宽 = 0.05674 ran 
e. 便捷 方法 生成 的 QQ 图 f 经 过 对 数 处 理 的 小 费 QQ 图 
= 
x Ka 
i + g 8 
k = 
j 3 2 -1 0 1 2 3 -3 2 -1 0 1 2 3 
理论 上 的 分 位 数 理论 上 的 分 位 数 











图 15-1: 小 费 (及 小 费 的 转换 ) 与 正 态 分 布 的 比较 
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为 了 更 好 地 了 解 变量 tip 和 正 态 分 布 的 差异 ， 我 们 可 以 在 同一 张 图 上 绘制 正 态 分 布 和 
tip 数据 。 要 实现 这 个 操作 ， 可 以 使 用 rnorm() 函数 从 一 个 正 态 分 布 生 成 一 个 大 的 数字 
样本 ， 该 样本 被 称 作 ran。 然 后 ， 绘 制 ran 的 密度 图 ， 并 用 polygon() 函数 填充 曲线 ， 
将 曲线 和 tip 密度 图 区 别 开 来 。 最 后 ， 使 用 Lines() 函数 在 同一 张 图 上 绘制 tip 的 密度 
图 。 代 码 如 下 。 






























































# 图 15-1b 
ran = rnorm(1000000) # 从 规范 距离 随机 采样 100 万 obs 
plot(density(ran), 
main = "b. Density(tip) vs. Normal Distribution", 
xlim = c(-4,10)) 
polygon(density(ran), col = "burlywood") 


lines(density(tip), 
col = "blue", 
lwd = 2) 








图 的 高 宽 比 (aspect ratio) 等 于 图 的 高 度 除 以 宽度 。 这 个 比值 很 重要 ， 因 为 
改变 该 比值 可 以 使 得 图 中 变量 之 间 的 关系 更 易 或 更 难 察觉 。 感 知心 理学 的 研 
究 已 经 表明 ， 和 斜率 接近 45 的 线 效果 最 佳 。 选 择 合适 的 高 宽 比 以 实现 最 佳 效 
果 被 称 为 “倾斜 ”(banking)。 通 常 ，R 散 点 图 会 对 每 个 页 面 采 用 效果 最 好 的 
高 宽 比 ， 不 过 高 宽 比 也 可 以 通过 asp, mar 和 ylim 等 参数 进行 调整 。 在 本 书 
中 ， 有 很 多 页 面 有 多 个 图 形 。 显 示 为 2x2 或 3x3 的 正方 形 时 ， 一 个 页 面 上 
各 种 图 形 的 高 宽 比 与 其 在 单 页 图 上 的 比值 大 致 相同 。( 你 可 以 自己 试 试 看 。) 
图 15-1 的 尺寸 是 3x2， 已 经 发 生 了 一 些 变化 。 在 这 种 情况 下 ， 为 方便 比较 ， 
在 一 个 页 面 上 显示 6 张 图 比 保持 高 宽 比 更 重要 。 人 们 在 这 个 问题 上 意见 可 能 
不 一 致 ， 因 此 改变 高 宽 比 的 时 候 要 谨慎 。 






















































































15-1b 为 登 加 在 正 态 分 布 上 的 tip 密度 图 ， 提 供 的 信息 比 图 15-1a 更 丰富 ， 但 如 果 重 县 
得 更 紧密 一 点 ， 评 估 差 异 会 更 容易 。 也 就 是 说 ， 如 果 有 相同 的 平均 值 ， 这 两 张 图 会 更 容易 
进行 比较 。 向 量 ran 是 用 rnorm() 函数 的 默认 选项 创建 的 ， 平 均值 为 6， 标准 差 为 1。 统 计 
人 员 经 常 将 变量 标准 化 (standardize) 或 规范 化 (normalize)， 使 其 易于 与 已 知 特征 的 分 布 
进行 比较 。 








变量 tip 可 以 通过 一 个 简单 的 过 程 标 准 化 ， 使 其 均值 为 0， 标 准 差 为 1。 首 先 ， 求 tip 的 均 
值 和 标准 差 ， 代 码 如 下 : 

> mean(tip) 

[1] 2.998279 


>sd(tip) 
[1] 1.383638 


下 一 步 ， 从 每 个 小 费 值 中 减 去 2.998 (均值 )， 并 用 所 得 数据 除 以 1.384 (标准 差 )， 创 建 一 


个 新 变量 newtip。 这 是 变量 交换 (transformation) 的 一 个 例子 。 变 量变 换 是 通过 函数 进行 
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的 ， 可 以 在 保留 原始 变量 基本 信息 的 同时 使 新 的 变量 更 易于 处 理 ， 或 更 符合 所 用 统计 方法 
的 必要 假设 。 创 建 变量 newtip 的 代码 如 下 : 


> newtip = (tip-2.998)/1.384 # 变换 tip 使 得 
# mean = 0 H. sd= 1 














然后 ， 再 次 绘制 这 两 个 密度 图 ， 代 码 如 下 : 








# 图 15-1c 
newtip = (tip-2.998)/1.384 # 变换 tip 使 得 
# mean=0 H. sd=1 























plot(density(ran), 
ylim = c(0,.48), 
main = "c. Density(newtip) vs. Normal Distribution", 


xlim = c(-4,8)) 
polygon(density(ran), 
col = "burlywood") 
Lines(density(newtip), 
col = "blue", 

lwd = 2) 

















图 15-1c Ras STREAM, tek ES. 


还 有 其 他 方法 可 以 比较 两 者 的 分 布 ， 会 生成 不 同类 型 的 图 形 。 首 先 考 虑 变量 tip 的 数值 摘 
要 ， 如 下 所 示 : 




















> summary(tip) 
Min. 1st Qu. Median Mean 3rd Qu. Max. 
1.000 2.000 2.900 2.998 3.562 10.000 


summary() 国 数 给 出 了 第 1 章 详细 介绍 过 的 分 位 数 一 一 第 25 个 、 第 50 个 〈 即 中 位 数 ) 和 
第 75 个 百 分 位 数 。 我 们 可 以 根据 自己 的 需要 对 变量 tip 的 分 布 进行 分 组 ， 不 一 定 要 分 成 4 
组 。 例 如 ， 你 可 以 将 变量 分 为 10 个 百分点 一 组 ， 断 点 称 为 分 位 数 (quantile)。quantile() 
函数 可 以 根据 用 户 需求 为 给 定 的 变量 计算 分 位 数 ， 我 们 来 看 看 它 是 如 何 工作 的 。 创 建 一 个 
新 的 变量 qttp， 其 中 包含 tip 的 分 位 数 ， 每 10 个 百分点 分 开 。 分 位 数 必须 落 在 0~1 的 范 
围 内 ， 因 此 需要 使 用 seq() 函数 ， 把 第 一 个 和 最 后 一 个 点 指定 为 80 和 1， 并 且 间 隔 为 0.1。 
然后 ， 打 印 atip 的 值 。 其 实现 代码 如 下 : 









































> qtip = quantile(tip, seq(0,1,.1)) 
> qtip 

0% 10% 20% 30% 40% 
1.000 1.500 2.000 2.000 2.476 
50% 60% 70% 80% 

2.900 3.016 3.480 4.000 

90% 100% 

5.000 10.000 


我 们 可 以 绘制 变量 tip 的 分 位 数 和 ran 的 分 位 数 ， 由 此 确定 两 个 分 布 的 契合 程度 。 例 如 ， 
把 atip 的 第 10 分 位 数 的 值 和 ran 的 第 10 分 位 数 的 值 绘 在 一 起 。 这 类 图 被 称 为 分 位 数 - 分 
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位 数 图 (quantile-quantile plot) 或 QQ A, 通常 易 于 阅读 ， 因 为 比较 一 组 点 离 直 线 有 多 近 ， 
相 较 于 比较 两 条 曲线 更 直接 。 图 15-1d 使 用 了 qtip2() 函数 ， 使 分 位 数 间 的 间隔 更 小 ， 这 
样 可 以 在 图 上 创建 更 多 的 点 。 用 qqplot() 函数 绘图 ， 并 用 qqline() 函数 添加 参考 线 。 最 
后 ， 添 加 网 格 以 方便 读 取 轴 。 生 成 图 15-1d 的 代码 如 下 : 


















































# 图 15-1d 
qtip2 = quantile(tip, seq(0,1,.005)) 
qplot(ran, qtip2, 

main = "d. QQ plot(qtip2)", 

xlim = c(-3,3), 

col = "skyblue2") 











qqline(qtip2, 
col = "burlywood", 
lwd = 2) 


grid(lty = "dotted", 
col = "gray75") 
# 首先 需要 计算 ran 和 qtip2 
由 图 15-1d 可 知 ， 即使 tip 在 其 大 范围 内 接近 正 态 分 布 (注意 直线 )， 但 在 两 端 差 得 很 远 ， 
尤其 是 右 侧 。 这 意味 着 tip 并 不 接近 正 态 分 布 ， 根 据 这 样 的 分 布 进 行 分 析 是 不 明智 的 。 


该 图 是 QQ AE 现在 你 对 这 类 图 有 了 一 定 的 了 解 ， 你 最 好 知道 ， 事 实 上 不 用 先 创 
建 分 位 数 变量 (BU tan 和 qtip) 就 可 以 更 方便 地 绘制 出 几乎 相同 的 图 。 下 面 代码 中 的 
qqnorm() 范 数 可 以 直接 操作 变量 ttp， 生 成 图 15-le: 



























































# 图 15-1e 
qqnorm(tip, 
main = "e. Easier way to get QQ plot", 
col = "blue", 
ylab = "tip quantiles") 
qqline(tip, 
col = "burlywood", 
lwd = 2) 


grid(lty = "dotted", 
col = "gray75") 


tip 似乎 不 是 正 态 分 布 ， 所 以 我 们 需要 考虑 对 tip 进行 变换 。 回 想 一 下 变换 的 实际 意义 : 
如 果 原 始 数 据 不 满足 分 析 给 出 有 效 结果 的 必要 假设 ， 有 时 可 以 应 用 数据 函数 〈 即 变换 ) 产 
生 满 足 假设 的 数据 ， 然 后 对 变换 后 的 数据 进行 分 析 。 这 样 一 来 ， 结 论 必然 是 关于 变换 后 的 
数据 ， 而 不 是 原始 数据 的 。 这 里 有 许多 方法 可 以 尝试 ,但 对 于 减少 或 消除 偏 斜 (分 布 非 对 
称 的 程度 )， 对 数 函 数 的 变换 通常 是 成 功 的 。 下 面 的 代码 生成 了 图 15-1f， 由 此 可 知 ， 对 数 
(普通 或 基于 10) 对 数据 的 变换 效果 非常 好 : 









































# 图 15-1f 
logtip = log10(tip) 
qqnorm( logtip, 
main = "f. QQ plot of log10(tip)", 
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col = "blue4") 


qqline(logtip, 
col = "burlywood3", 
lwd = 2) 











目前 为 止 ， 我 们 已 经 使 用 QQ 图 对 一 个 变量 的 分 布 及 其 理论 分 布 进 行 了 比较 。 你 也 可 以 用 
QQ 图 来 比较 两 个 变量 的 分 布 ， 比 如 tips 数据 集中 的 tip 和 size。 对 于 这 个 数据 集 来 说 ， 
比较 男性 顾客 和 女性 顾客 给 的 小 费 ， 或 午餐 和 晚餐 时 给 的 小 费 等 ， 可 能 更 有 趣 。 要 实现 
这 个 需求 ， 你 可 以 组 织 适当 的 数据 子 集 ， 并 绘制 各 组 的 QQ 图 。 当 变量 刚好 有 两 个 级 别 时 
(比如 tips 数据 集 的 性 别 )， 用 lattice 包 比 较 两 组 较为 便捷 。 你 可 以 使 用 如 下 qq 函数 : 

















qq(y ~ x) 
本 例 中 ，y 正好 有 两 个 等 级 ， 并 且 x 是 定量 变量 ， 代 码 如 下 : 


# 图 15-2( 左 ) 
library(lattice) 


qq(sex ~ tip, 
main = "Tips given by men and women") 





结果 如 图 15-2 (Æ) 所 示 。 











男性 顾客 和 女性 顾客 的 小 费 对 比 男性 顾客 和 女性 顾客 打 赏 小 费 占 总 消费 额 的 比例 
R | £ R” 
o0 





























15-2: 男性 顾客 和 女性 顾客 的 小 费 对 比 QQ 图 ( 左 ) ， 以 及 男性 顾客 和 女性 顾客 打 赏 小 费 占 总 消费 
额 比例 的 QQ 图 ( 右 ) 。 两 张 图 均 使 用 lattice 包 生 成 








在 图 15-2 中 ， 左 侧 图 显示 了 男性 顾客 和 女性 顾客 的 小 费 分 布 。 在 图 中 ，5 美元 以 下 的 情形 
看 不 出 什么 差异 ， 但 是 高 于 5 美元 的 小 费 更 有 可 能 是 从 男性 顾客 那里 获得 的 。 这 一 点 可 以 
用 数值 摘要 来 证 明 ， 代 码 如 下 : 
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> summary(tip[sex == "Male"]) # 仅 包含 男性 的 子 集 
Min. 1st Qu. Median Mean 3rd Qu. Max. 
1.00 2.00 3.00 3.09 3.76 10.00 

> summary(tip[sex == "Female"]) # 仅 包含 女性 的 子 集 
Min. 1st Qu. Median Mean 3rd Qu. Max. 
1.000 2.000 2.750 2.833 3.500 6.500 


通过 研究 小 费 的 分 布 ， 我 们 发 现 了 一 些 有 趣 的 现象 。 相 比 之 下 ， 研 究 小 费 和 账单 总 额 之 比 
可 能 更 有 意义 。 和 毕竟 ,关于 打 赏 的 指导 大 多 建议 按照 “账单 的 15% ”给 小 费 。 把 小 费 与 账 
总额 的 比例 乘 以 100， 可 以 计算 出 一 个 新 的 变量 。 然 后 ， 可 以 按照 这 个 新 变量 为 男性 顾 
客 和 女性 顾客 绘制 一 张 QQ 图 ， 代 码 如 下 : 





te 








# 图 15-2( 右 ) 
tips$ratio = 100*(tip/total_bill) 
qq(sex ~ tipsSratio, 
main = "Tips as percent of total bill, for men and women") 








在 图 15-2 中 ， 右 侧 图 显示 在 比例 高 达 约 25% 的 地 方 ， 男 性 和 女性 同样 慷慨 ， 而 越 往 上 ， 
女性 越 大 方 。 这 里 只 有 一 个 例外 。 也 许 这 个 人 想 给 他 的 女 朋 友 留 下 好 印象 ， 也 许 小 数 点 在 
这 里 出 现 了 误 记 。 这 样 的 问题 在 真实 的 数据 分 析 中 经 常 出 现 。 你 需要 检查 数据 是 否 正确 。 
此 外 ， 你 需要 决定 是 包括 还 是 排除 那样 的 极 值 点 ， 或 者 用 两 种 方式 来 分 析 数 据 ， 并 报告 两 
者 的 结果 。 这 非常 有 趣 ! 





























续 分 析 tips 数据 集 。 研 究 变量 ratio， 而 不 是 变量 ttp。 其 他 因素 和 小 费 的 多 少 有 关 
和 





























练习 15-2 
再 来 看 car 包 中 的 Vocab 数据 集 。 变 量 vocabulary 和 education 符合 正 态 分 布 吗 ? 男性 和 
女性 的 vocabulary 得 分 的 分 布 相同 中? 
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有 时 ， 我 们 需要 探讨 大 于 等 于 三 个 变量 间 的 关系 ， 但 可 用 于 图 的 媒介 通常 都 是 二 维 的 ， 比 
如 纸 或 电脑 屏幕 。 虽 然 这 提出 了 挑战 ， 但 人 们 找到 了 大 量 聪 明 的 办 法 来 对 较 高 维度 的 数据 
进行 可 视 化 。 有 些 方法 可 以 让 我 们 一 次 查看 成 对 的 变量 ， 以 及 同一 页 面 上 的 其 他 变量 对 ， 
以 便 进 行 比 较 。 还 有 些 方法 试图 在 一 张 图 中 显示 三 个 或 更 多 个 变量 。 这 一 部 分 探讨 了 一 些 
前 途 无 量 的 将 多 变量 可 视 化 的 绘图 方法 。 
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Ful ra FBP AED iT 


16.1 


散 点 图 矩阵 


当面 对 许多 定量 变量 时 ， 首 先 查 看 每 个 可 能 的 变量 对 之 间 的 关系 有 时 会 有 帮助 。 为 了 避免 
为 每 个 组 合 都 输入 plot() 命令 ，R 提供 了 一 个 快捷 命令 pairs()， 它 可 以 执行 这 一 操作 。 


此 外 ，pairs() 将 所 有 图 放 在 同一 页 面 上 ， 以 便 进 行 比较 。 这 样 得 到 的 图 








被 称 为 散 点 图 敌 


阵 (scatter plot matrix)。 我 们 将 使 用 散 点 图 矩阵 来 研究 各 种 教会 团体 成 员 性 格 之 间 的 关系 。 


对 美国 宗教 生活 的 长 期 研究 表明 ， 每 周 出 勤 情况 以 及 成 员 的 关系 似乎 与 教会 的 严格 程度 
相关 。Iannaccone (1994) 讨论 了 这 项 研究 ， 并 给 出 了 一 个 有 趣 的 数据 集 ， 该 数据 集 为 





18 个 宗教 教派 中 的 每 一 个 显示 了 几 


代码 如 下 : 


> library(Sleuth2) 
> attach(ex1713) 
> head(ex1713) 


sE. 
个 变量 。 


Denomination Distinct Attend NonChurch StrongPct AnnInc 


1 American Baptist 
2 Assemblies of God 
3 Catholic 
4 Disciples of Christ 
5 Episcopal 
6 Evangelical Lutheran 


要 查看 这 些 数据 的 码 本 ， 请 输入 如 下 命令 : 


> ?ex1713 


136 


25.6 
35.4 
26.4 
24.3 
17.3 
23.0 


1. 


PRENRO 


50. 


6 
.0 
.0 

0 

5 


6 


24000 
27100 
32900 
28600 
39000 
33700 


从 Sleuth2 包 的 ex1713 中 可 以 找到 该 数据 。 


码 本 简介 如 下 : 


Distinct 


纪律 的 特殊 性 /规范 性 ，7 分 制 。 





Attend 

每 周 出 勤 的 平均 百分比 。 
NonChurch 

成 员 所 属 的 世俗 组 织 的 平均 数量 。 
StrongPct 


认为 自己 是 强大 的 教会 成 员 的 人 数 的 平均 百分比 。 








AnnInc 


年 平均 收入 。 


图 16-1 所 示 的 散 点 图 矩阵 是 由 pairs() 函数 生成 的 。 注 意 ， 变 量 名 输入 是 一 个 公式 ， 从 符 
号 “~” 开始 ， 紧 随 其 后 的 就 是 变量 名 。 变 量 名 按 出 现在 图 上 的 顺序 排列 ， 用 符号 “+” 分 
E 此外， 可 以 为 该 函数 添加 任意 特殊 参数 ， 以 及 par() 参数 。 生 成 图 16-1 的 代码 如 下 ， 
文 里 只 使 用 了 参数 pch 和 col: 


# 图 16-1: 生 成 教会 宗派 数据 的 散 点 图 和 矩阵 

Library(SLeuth2) 

attach(ex1713) 

pairs(~ Distinct + Attend + NonChurch + StrongPct + AnnInc, 
pch = 16, 

col = "deepskyblue") 
































图 16-1 中 的 散 点 图 和 矩阵 对 任意 两 个 变量 都 进行 了 两 次 绘制 。 在 每 个 组 合 中 ， 每 一 个 变量 都 
让 一 次 x 变量 ,一 次 y 变量 。 例 如 ， 第 二 行 的 变量 Attend 是 四 张 散 点 图 的 变量， 并且 其 
他 四 个 变量 分 别 是 四 张 图 的 x 变量。 在 第 二 列 ，Attend 是 四 张 散 点 图 的 x 变量， 并 且 其 他 
四 个 变量 分 别 是 四 张 图 的 y 变量 。 









































eee ees eee 也 就 是 说 ， 其 中 一 个 变量 增加 ， 

一 个 变量 也 随 之 增加 。 同 样 ，Attend 和 StrongPct 之 间 也 是 正 相 关 的 。 而 Attend 同 
NonChurch 和 AnnInc 则 为 负 相 关 ， 即 一 个 变量 增加 时 ， 另 一 个 变量 减 小 。 负 相关 不 如 正 相 
关 那 么 明显 。 换 名 话说 ， 呈 现 参数 负 相 关 的 点 并 没 不 像 呈 现 正 相关 的 点 那样 紧 紧 地 环绕 在 
条 直线 周围 。 这 一 点 在 图 16-3 中 更 为 明显 ， 图 中 每 一 张 散 点 图 都 有 一 条 最 小 二 乘 直线 。 
然 ， 强 相关 也 并 不 一 定 意味 着 因果 关系 。 换 名 话说 ， 即 使 高 严格 性 和 高 出 勤 率 通常 同时 
出 现 ， 也 不 能 证 明 二 者 之 间 存 在 必然 联系 。 不 过 ， 这 确实 表示 它们 之 间 的 联系 可 能 十 分 有 
趣 ， 值 得 进一步 研究 。 
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16-1: 教会 宗派 数据 的 散 点 图 和 矩阵 


car 包 中 有 一 个 叫 作 scatterplotmatrix() 的 函数 ， 它 为 散 点 图 矩阵 添加 一 些 有 用 的 特性 。 
首先 ， 它 可 以 让 你 在 矩阵 对 角 线 上 轻松 绘制 每 个 变量 的 分 布 ， 比 如 绘制 直方 图 、 密 度 图 、 
箱 线 图 、QQ 图 或 一 维 (对 角 线 的 ) 带 状 图 。 此 外 ， 它 还 可 以 为 每 张 图 添加 最 小 二 乘 线 。 


















































平滑 器 (smoother) 也 可 以 在 每 一 张 图 上 应 用 。 正 如 在 第 12 章 提 到 的 ， 平 请 器 可 以 使 散 点 
图 中 的 模式 易于 观看 。 几 种 平 请 器 在 给 定 x 值 《或 相近 的 几 个 x 值 ) 处 都 显示 了 y 的 中 心 ， 
这 种 方式 使 连接 这 些 点 构成 的 线 〈 通 常 是 曲线 ) 相对 平 谓 。 图 16-2 显示 了 应 用 平滑 器 之 后 
的 散 点 图 矩阵 ， 平 滑 器 用 一 条 红线 表示 。 你 可 以 使 用 参数 smoother 选择 一 种 平滑 方法 ， 锋 
16-2 使 用 了 默认 方法 ， 即 “loess” 或 局 部 加 权 回 归 (locally weighted regression ) 。 
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图 16-2: 通过 car 包 中 的 scatterplotMatrix() HAERIAD., 默认 选项 在 对 角 线 添加 核 密 


通 
度 图 和 地 秘 图 ， 在 每 张 图 的 窗口 内 添加 最 小 二 乘 线 和 平滑 器 





生成 图 16-2 的 代码 如 下 : 











# 图 16-2: 散 点 图 矩阵 w/ 平 滑 和 对 角 线 密度 

library(car) 

Library(SLeuth2) 

attach(ex1713) 

scatterplotMatrix(~Distinct + Attend + NonChurch + StrongPct + 
AnnInc) 








图 16-2 中 由 平滑 器 生成 的 线 揭示 了 几 个 有 趣 的 现象 。Attend 和 Distinct 之 间 的 联系 几 
乎 可 以 表示 为 一 条 直线 ，Attend 和 StrongPct 也 是 这 样 ， 也 就 是 说 这 类 关系 可 以 描述 为 
简单 的 线性 相关 。 在 简单 的 散 点 图 上 看 似 接近 线性 的 关系 〈 例 如 Attend 和 AnnInc 的 关 
， 在 这 张 图 中 显得 更 为 复杂 。 然 而 ， 应 当 指出 的 是 ， 该 数据 集中 只 有 18 个 教派 ， 对 
于 得 出 任意 两 个 变量 之 间 的 关系 来 说 ， 这 个 数量 相当 小 。 这 个 例子 只 是 为 了 说 明 包 中 可 
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用 的 功能 。 大 多 数 情况 下 ， 绘 制图 16-1 可 能 就 够 了 。 对 数据 有 了 感受 ， 你 或 许 会 发 现 其 
他 实用 的 特征 。 
scatterplot() 生成 的 矩阵 可 以 进行 定制 。 使 用 参数 smoother = NULL 可 以 忽略 平滑 器 ， 代 


码 如 下 所 示 。 类 似 地 ， 使 用 参数 reg.Line = F 可 以 去 掉 回 归 线 ， 使 用 参数 diagonal 可 以 
改变 对 角 线 处 的 图 的 类 型 。 要 查看 选项 ， 请 输入 ?scatterpLotMatrix。 























定制 的 scatterplot() 矩阵 图 如 图 16-3 所 示 ， 创 建 代码 如 下 : 











# 图 16-3: 散 点 图 矩阵 w/out 平滑 且 用 直方 图 表示 
scatterplotMatrix(~Distinct + Attend + NonChurch + StrongPct 
+ AnnInc, diagonal = "histogram", 
smoother = NULL) 
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16-3: 由 car 包 中 的 scatterplotMatrix() 函数 生成 的 散 点 图 矩阵 。 去 掉 了 平滑 器 且 用 直方 图 取 
代 了 对 角 线 的 密度 图 











图 16-3 展示 了 对 角 线 为 直方 图 的 矩阵 。 相 比 默 认 生 成 的 密度 图 ， 这 可 能 是 一 个 更 好 的 
选择 ， 至 少 在 本 例 中 是 这 样 ， 因 为 样本 大 小 只 有 18。 你 可 能 认为 ， ey eres 
NonChurch 的 分 布 没 有 密度 图 上 的 光滑 。 此 外 ，NonChurch 的 两 个 特别 大 的 值 会 导致 此 变量 
与 Attend 之 间 的 关系 比 实际 情况 更 强 、 更 线性 。 仔 细 观 察 这 两 个 变量 的 散 点 图 ， 你 就 会 发 
现 这 一 点 ， 但 如 果 没 有 用 直方 图 进行 标记 ， 你 可 能 就 无 法 发 现 这 一 点 


研究 散 点 图 矩阵 时 一 定 要 记 住 ， 它 实际 上 为 你 呈现 了 许多 独立 的 图 。 不 要 被 页 面 上 的 大 量 
信息 量 所 吓 到 ， 单 独 看 每 一 张 图 就 好 。 看 了 许多 图 以 后 ， 你 就 会 发 现 进行 对 比 会 很 有 局 发 。 


16.2 ”相关 性 分 析 图 


相关 性 分 析 图 (corrgram， 有 时 也 称 为 correlogram， 虽 然 实际 上 此 术语 指 的 是 其 他 东 

西 ) FERGUS LS 在 这 种 类 型 的 图 中 ， 各 个 散 点 图 被 替换 为 代表 数字 
的 符号 ， 这 些 数字 衡量 的 是 两 个 定量 变量 之 间 的 线性 相关 。 皮 尔 森 相关 系数 (Pearson 
correlation coefficient) 通常 表示 为 r， 在 -1 和 1 之 间 变 化 。 完 全 正 相 关 时 , r = 1， Ne 
个 定量 变量 在 散 点 图 上 的 所 有 点 正好 在 一 条 上 升 的 直线 上 。 完 全 负 相 关 时 ,x = -1， 表 明 
所 有 的 点 正好 在 一 条 下 降 的 直线 上 。r 接近 0， 表示 变 a 注意 ， 
相关 系数 衡量 的 不 是 直线 的 倾斜 度 ， 而 是 测量 点 到 直线 的 总 偏差 。 图 16-4 举例 说 明了 相关 
系数 的 含义 。 请 注意 : 只 有 当 变 量 之 间 是 线性 关系 时 ， 也 就 是 说 点 落 在 直线 上 时 ， 相 关系 
数 才 是 有 用 的 。 在 其 他 情况 下 ， 相 关系 数 可 能 产生 误导 ， 其 至 是 欺骗 性 的 。 


要 绘制 相关 性 分 析 图 ， 首 先 必须 定义 一 个 相关 算 阵 (correlation matrix) ， 该 矩阵 包含 数据 
集中 所 有 变量 对 的 相关 系数 ， 由 cor() 函数 实现 ， 代 码 如 下 : 
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> Llibrary(Sleuth2) 
> attach(ex1713) 
> y = cor(ex1713[, 2:6]) # 使 用 全 部 的 第 2~6 行 与 列 
> y 

Distinct Attend NonChurch StrongPct AnnInc 
Distinct 1.0000000 0.7891067 -0.6585883 0.8127124 -0.6003892 
Attend 0.7891067 1.0000000 -0.6107342 0.8649691 -0.6766143 
NonChurch -0.6585883 -0.6107342 1.0000000 -0.4218525 0©.6458747 
StrongPct 0.8127124 0.8649691 -0.4218525 1.0000000 -0.6146261 
AnnInc -0.6003892 -0.6766143 0.6458747 -0.6146261 1.0000000 


相关 和 矩阵 生成 后 ， 可 以 使 用 corrplot 包 中 的 corrplot() 函数 生成 几 种 类 型 的 相关 性 分 析 
图 。 图 16-5 展示 了 一 些 例子 ， 所 有 例子 都 使 用 颜色 来 描述 相关 性 大 小 。 你 也 可 以 使 用 对 象 
的 大 小 、 对 象 的 方向 ， 或 数字 显示 给 定 变量 对 的 相关 性 程度 。 
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16-4; 相关 系数 为 1， 则 两 个 变量 完全 正 相关 ， 所 有 点 正好 落 在 向 上 倾斜 的 直线 上 。 相 关系 数 为 


-1， 则 两 个 变量 完全 负 相 关 ， 所 有 点 落 在 向 下 倾斜 的 直线 上 。 
显 的 关联 模式 。 相 关系 数 为 0.79， 表 示 点 “接近 ”一 条 直线 


相关 系数 为 0， 表 示 没 有 明 





变量 4 和 B 之 间 的 关系 与 和 4 之 间 的 关系 相同 ， 因 此 完整 的 相关 性 分 析 图 是 多 余 的 。 





也 就 是 说 ， 上 半 部 分 的 相关 性 与 下 半 部 分 的 相关 性 完全 相同 。 因 














此 ， 有 些 人 更 倾向 于 只 显 


示 上 半 部 分 或 下 半 部 分 矩阵 。 图 16-5 中 右 下 角 的 图 就 是 一 个 例子 。 你 可 以 使 用 参数 type = 
"lower" 实现 此 操作 。 生 成 如 图 16-5 所 示 的 相关 性 分 析 图 的 代码 如 下 : 


























# 图 16-5: 多 种 相关 性 分 析 图 
library(corrplot) 
library(Sleuth2) 
attach(ex1713) 

y = cor(ex1713[, 2:6]) 
par(mfrow = c(2,2)) 
corrplot(y) # method 的 默认 值 为 "circle" 
corrplot(y, method = "color") 

corrplot(y, method = "number") 

corrplot(y, method = "ellipse", type = "lLower") 
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B 16-5; 


伤 


相关 和 矩阵 的 可 视 化 。 这 是 一 种 概括 或 近似 的 散 点 图 矩阵 ， 由 corrplot 包 中 的 corrplot() 
辆 数 生成 。 左 上 图 ，method = "circle"; 右上 图 ，method = "color"; 左下 图 ，method= 
"number"; 右 下 图 ，method= "ellipse", type="Lower" (3908348) 











尽管 有 人 对 相关 系数 的 缺点 发 出 过 警告 ， 但 相关 性 分 析 图 仍 是 呈现 数据 的 有 效 方式 ， 只 要 
尔 能 花 些 时 间 观 察 散 点 图 (或 平滑 器 )， 先 看 看 相关 系数 在 图 中 是 否 有 意义 。 PREI 16-5 








中 的 相关 性 分 析 图 和 本 章 前 面 的 散 点 图 矩阵 ， 看 看 从 这 些 不 同 的 展示 中 得 出 的 结论 是 否 一 


致 。 用 psych 包 中 的 cor.plot() 国 数 也 可 以 绘制 相关 性 分 析 图 。 
图 16-5 中 的 所 有 图 都 用 颜色 表示 关联 强度 ， 在 右边 或 底部 以 渐变 顺序 列 出 各 种 颜色 的 含 














义 。 蓝 色 阴 影 呈 正 相关 ， 颜 色 越 深 关 联 越 强 《〈 即 接近 1)。 红 色 阴 影 呈 负 相 关 ， 颜 色 越 深 越 


接近 -1 





，( 左 上 角 和 右 下 角 ) 两 张 图 中 ， 图 形 大 小 也 表示 关联 强度 ， 但 表示 方式 相反 。 在 








左上 和 角 的 图 中 ， 较 大 的 图 形 表示 较 大 的 绝对 值 。 在 右 下 角 的 图 中 ， 方 向 指示 正 相关 或 负 相 





关 ， 窑 椭圆 形 表 示 点 紧 挨 着 线 即 强 相关 。 宽 椭圆 形 表明 线 周围 有 很 多 震动 ， 即 弱 相 关 。 无 
需 多 言 ， 你 也 许 认识 到 了 这 一 点 ， 经 过 确认 就 更 好 了 ， 对 吗 ? 


把 一 部 分 图 放 在 矩阵 的 下 半 部 ， 田 一 部 分 放 在 上 半 部 ， 也 可 将 散 点 图 矩阵 与 相关 分 析 图 相 
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GGally @ PAY ggscatmat() 函数 可 以 实现 这 一 点 ， 代 码 如 下 : 
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# 图 16-6 
library(GGally) 
Llibrary(Sleuth2) 
ggscatmat(ex1713, columns = 2:6) 
结果 如 图 16-6 所 示 。 
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16-6: 散 点 图 和 矩阵 和 相关 性 分 析 图 的 结合 ， 由 GGally 包 中 的 ggscatmat() 函数 生成 。 注 意 右 下 角 


BY x ABN, MOL NBS 
EE, Al 16-6 中 出 现 了 一 个 小 问题 。 在 右 下 角 , x RAS, Ke 











大 








为 数字 太 大 ， 











而 空间 太 小 。 对 此 ， 有 一 个 非常 简单 的 解决 方案 ， 将 AnnInc (AAU YEE 


























MIL TCE A BF 





美元 ， 并 用 新 变量 重新 绘制 图 即 可 。 为 此 ， 需 要 一 条 新 命令 














Yoo 





个 命令 稍 做 


改变 。 首 先 ， 创 建 一 个 新 变量 Inc， 等 于 AnnInc 除 以 1000。 新 变量 成 为 数据 阵 中 的 第 七 








列 。 下 一 步 ， 修 改 ggscatmat() 命令 ,使 其 包括 所 需 的 列 , 晴 
代码 如 下 : 


1 去 掉 AnnInc 而 包括 Inc, 
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# 图 16-7: 解 决 图 16-6 中 的 小 问题 
library(GGally) 

Library(SLeuth2) 

ex1713$Inc = ex1713$AnnInc/1000 
ggscatmat(ex1713, columns = c(2:5,7)) 


























请 看 图 16-7 所 示 的 结果 ， 观 察 倒 加 问题 是 如 何 解 决 的 。 
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16-7; 图 16-6 中 的 问题 已 修复 。 注 意 ， 现 在 右 下 角 的 x 轴 的 可 读 性 增强 了 


16.3 混合 定量 变量 和 分 类 变量 的 广义 对 矩阵 


既 有 定量 变量 又 有 分 类 变量 的 数据 集 是 很 常见 的 。 在 这 种 情况 下 ， 虽 然 散 点 图 不 能 处 理 分 








类 变量 ， 但 仍然 可 以 以 有 意义 的 方式 展示 所 有 变量 对 。 这 意味 着 仅 显 示 几 种 类 型 的 





图 ， 每 


一 种 和 相关 变量 类 型 相 适 应 。 如 下 代码 示例 用 GGally 包 中 的 ggpairs() 和 gpairs 包 中 的 





gpairs() 展示 了 此 类 图 形 化 展示 。 
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再 次 考虑 Nimrod 数据 集 。 该 数据 集 只 有 一 个 定量 变量 time， 以 及 两 个 分 类 变量 level 和 
medium, “ig performer 只 是 名 字 ， 不 会 提供 任何 有 帮助 的 信息 ， 还 会 使 页 面 更 拥挤 ， 所 
以 将 其 舍 去 。 使 用 数据 集 的 子 集 可 以 实现 这 一 操作 〈 详 见 12.1 节 )。 我 们 需要 的 子 集 是 
Nimrod[，2:4] ， 即 只 包含 第 二 列 到 第 四 列 的 所 有 行 的 数据 ， 代 码 如 下 : 
































# 图 16-8 
library(GGally) 
ggpairs(Nimrod[ ,2:4]) 











结果 如 图 16-8 所 示 。 
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图 16-8: XNE, APIS RSESRSNADRVSHAGE, iit GGally 包 中 的 ggpairs() + 
成 

图 16-8 中 有 一 些 类 型 的 图 我 们 比较 熟悉 。 对 角 显 示 了 两 个 分 类 变量 的 条 形 图 以 及 一 个 定量 

变量 的 密度 图 。 还 有 几 张 箱 线 图 ， 其 中 每 一 对 变量 包括 一 个 定量 变量 和 一 个 分 类 变量 。 

还 有 几 张 我 们 还 没 提 到 过 的 图 。 左 下 ee 在 这 
通过 方 格 分 解 成 了 多 个 条 形 图 。 左 下 角 是 medium 的 条 形 图 ， 每 一 个 medium 对 应 两 个 
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level 值 。 在 上 和 角 是 对 应 每 个 medium 值 的 level 条 形 图 。 


最 后 ， 一 些 方块 内 绘制 了 分 类 变量 和 定量 变量 的 条 形 码 图 (barcode plot) 。 例 如 ， 在 左边 
中 间 方 块 内 呈现 的 数据 ， 看 起 来 像 印 在 书 的 封面 或 其 他 商品 上 的 条 形 码 。 每 一 个 小 条 表示 











一 个 点 ， 排 列 得 如 同 四 条 带 状 图 ， 

















每 个 medium 值 对 应 一 条 。 有 联系 时 ， 第 二 条 不 是 简单 的 





全 加 ， 而 是 放 在 该 位 置 已 有 的 条 的 旁边 。 换 句 话 说 ， 这 些 条 是 跳动 的 ， 但 井然 有 序 。 最 后 








一 行 中 间 的 图 也 是 条 形 码 图 ， 但 这 张 图 


关于 该 图 ， 还 有 最 后 一 点 值得 观察 。 请 注意 ， 有 一 个 












































回顾 本 例 ， 再 次 比较 图 


# 图 16-9 


























install.packages("gpairs") # 若 还 没 安装 


library(gpairs) 
gpairs(Nimrod[ ,2:4]) 


包含 了 对 应 业余 和 专业 的 两 个 带 状 图 。 


定量 变量 和 一 个 分 类 变量 时 ， 这 对 变 
量 会 以 两 种 不 同类 型 的 图 展示 出 来 。 关 于 两 个 变量 的 关系 ， 从 两 张 图 中 得 出 的 结论 也 许 略 
有 不 同 。 这 里 有 许多 可 供 选择 的 选项 。 更 多 信息 ， 请 输入 ?ggpairs 查询 。 


如 下 代码 中 的 gpairs() 函数 也 给 出 两 两 比较 的 视图 ， 且 引入 了 另 一 种 类 型 的 图 一 一 马赛 克 











A (mosaic plot)。 第 20 章 会 专门 介绍 这 类 图 ， 所 以 这 里 不 会 详细 讨论 。 了 解 马赛 克 图 后 ， 
16-8 和 图 16-9 也 许 会 让 你 有 所 收获 。 生 成 图 16-9 的 代码 如 下 : 
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图 16-9: XNA, AFESRSNANDASS RSNA. ER gpairs 包 中 的 gpairs() 生成 
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仔细 观察 图 16-9， 对 角 线 上 有 条 形 图 和 直方 图 。 它 们 分 别 是 哪 一 张 图 ? 为 什么 ?如 果 你 不 
确定 ， 复 习 第 7 章 和 第 9 章 。 查 看 gpairs() 有 哪些 可 用 选项 ， 请 输入 2gpairs. 

















练习 16-1 
请 使 用 本 章 介 绍 的 工具 研究 car 包 中 的 Ginzberg 数据 ( 仅 用 前 三 个 变量 )。 你 是 否 发 现 了 
有 趣 的 关系 ? 这 里 是 否 存在 线性 关系 ? 
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第 17 章 


三 维 图 





17.1 三 维 散 点 图 


trees 数据 集 有 三 个 定量 变量 。 我 们 用 带 状 图 查看 了 其 中 一 个 变量 Volume 的 分 布 ， 并 用 散 
点 图 查看 了 两 个 变量 Height 和 Girth 的 关系 。 散 点 图 有 一 种 扩展 图 形 可 以 同时 可 视 化 三 个 
变量 ， 通 常 称 为 三 维 散 点 图 (3D scatter plot)。 很 多 包 都 有 创建 三 维 散 点 图 的 函数 ， 包 括 


lattice, scatter plot3D、rgl、plot3D、car， 等 等 。 











本 章 重点 关注 scatterplot3d 包 ， 因 为 它 的 语法 和 基础 R 中 的 plot() 函数 非常 相似 ， 操 作 
起 来 相对 容易 ， 而 且 非 常 灵 活 。 另 外 ， 使 用 该 包 便于 展示 许多 技巧 ， 而 这 些 技巧 可 使 三 维 
图 易于 理解 。 这 里 还 将 介绍 两 三 个 其 他 函数 ， 进 行 对 比 讨论 。 





























scatterplot3d() 国 数 的 基本 语法 如 下 : 
scatterplot3d(x, optional arguments) 

其 中 x 是 数据 框 或 矩阵 。scatterptot3d() 函数 还 可 以 写 为 如 下 形式 : 
scatterplot3d(x, y, z, optional arguments) 


其 中 x、y 和 z 是 向 量 。 











虽然 第 一 种 形式 通常 较为 方便 ， 但 第 二 种 更 好 ， 因 为 它 可 以 让 你 决定 变量 的 顺序 ， 或 者 选 
择 变量 子 集 。 变 量 x 绘制 在 水 平 轴 上 ，y 在 对 角 线 上 ，z 在 垂直 轴 上 。 在 下 面 的 示例 脚本 
HA, x yA z 分 别 为 Height (E), Girth ( 周 长 ) 和 Volume (体积 ) : 
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# 图 17-1 的 脚本 
library(scatterplot3d) 
attach(trees) 
par(mfrow = c(2,2), 
cex.main = .9, 
las = 1) 


scatterplot3d(Height, Girth, Volume, 
main="a. 3D scatter plot of trees data") 
# FILE RA:scatterplot3d(trees) 

# 看 下 会 发 生 什么 …… 





scatterplot3d(Height,Girth,Volume, 
pch = 16, 
highlight.3d = T, 
main = "b. 3D scatter plot with highlighting", 
cex.axis = .5) 


scatterplot3d(Height,Girth,VoLume, 
pch = 16, 
highlight.3d = T, 
type = "h", 
main = "c. 3D scatter plot with lines and highlighting", 
cex.axis = .5) 


scatterplot3d(Height, Girth, Volume, 
pch = 15, type = "h", 


lwd = 5, 

color = "cyan4", 

main = "d. 3D bar plot without box", 
box = F, 

cex.axis = .5) 

















脚本 的 结果 如 图 17-1 所 示 。 

















17-1a 展示 了 一 个 基本 的 三 维 散 点 图 。 盒 子 底部 有 网 格 ， 对 于 在 二 维 平 面 上 显示 三 维 空 
间 有 一 定 的 帮助 。 然 而 ， 在 图 中 估计 给 定点 的 坐标 仍然 相当 困难 。 



































17-1b 做 出 了 改进 。 指 定 参 数 highlight.3d=T 为 点 添加 了 颜色 , “前面” 的 点 (y 值 较 小 
的 那些 点 ) ARE, BEB y EWH, Pie RT, BeBe pch=16 填充 了 圆圈 ， 颜 色 效 
由 此 加 强 。 
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图 17-lc 添加 了 各 点 到 底部 网 格 的 垂直 线 ， 再 次 做 出 改进 。 为 实现 这 一 点 使 用 了 参数 
type="h"， 这 样 更 容易 准确 地 辨别 x F y 值 。 












































a，trees 数 据 的 三 维 散 点 图 b， 增 强 效果 的 三 维 散 点 图 
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c， 增 加 效果 并 添加 直线 的 三 维 散 点 图 d， 去 掉 边 框 的 三 维 条 形 图 
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17-1; 基本 scatterplot3d() 的 输出 和 一 些 改进 














最 后 ， 通 过 把 图 符 变 为 方形 ， 并 增加 垂直 线 的 宽度 以 匹配 正方 形 的 宽度 ， 图 17-1d 把 线 图 变 
成 了 条 形 图 。 使 用 参数 pch=5 可 以 改变 图 符 ，tLwd=5 可 以 改变 线 宽 ， 你 通常 需要 几 次 试 错 ， 


以 找到 合适 的 线 宽 。 使 用 box=F 可 以 删除 图 周围 的 方 框 。 判 断 一 下 ， 哪 张 图 最 易于 阅读 ? 
































另 一 种 帮助 观众 感知 三 维 图 的 方式 是 在 图 上 放置 一 个 参考 面 (reference surface), ， 这 可 以 是 
一 个 平面 或 一 个 曲面 。 图 17-2 展示 了 一 种 可 能 性 ， 即 由 一 个 线性 模型 定义 的 预测 平面 。 如 
果 你 并 不 了 解 多 种 回归 ， 可 以 跳 过 这 个 例子 。 
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带 有 预测 平面 的 三 维 散 点 图 
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Girth 





17-2; 使 用 scatterplot3d() 绘制 的 带 有 预测 平面 / 参考 面 的 三 维 散 点 图 


生成 


图 17-2 的 代码 如 下 : 





# 图 17-2 

library(scatterplot3d) 

attach(trees) 

par(mfrow=c(1,1), las = 1) 

# 将 图 的 结果 存 入 对 象 sp3 

sp3 = scatterplot3d(Height, Girth, Volume, pch = 16, 
highlight.3d = T, 














type = nes 
main = "3D scatter plot with prediction plane", 
cex.axis = .7， 
box= F) 
model = Lm(Volume ~ Height +Girth) # 拟 合 线性 模型 
"model" sp3Splane(model) # 绘制 nodel 创 建 的 平面 














图 17-2 有 点 混乱 ， 因 为 很 难 判断 特定 点 是 高 于 还 是 低 于 参考 面 。 我 们 可 以 通过 car 包 中 的 
scatter3d() 函数 生成 更 好 的 图 ， 结 果 如 图 17-3 所 示 。 这 张 图 与 前 面 的 图 相似 ， 但 平面 有 
了 颜色 ， 增 加 了 存在 感 ， 并 且 处 在 平面 上 方 和 下 方 的 点 绘制 成 了 不 同 颜色 。 












































图 17-3: 通过 使 用 car 包 中 的 scatter3d() 函数 绘制 的 带 有 预测 面板 的 三 维 散 点 图 ( 另 见 彩 插 ) 


同 scatterplot3d() 不 一 样 ，scatter3d() 把 ?作为 垂直 坐标 轴 ， 所 以 ， 为 了 绘制 易于 和 由 
scatterplot3d() 生成 的 图 进行 比较 的 图 ， 这 里 必须 改变 变量 的 顺序 。 此 外 ， 变 量 z 的 方向 
是 相反 的 ， 因 此 变量 Girth 要 乘 以 -1， 使 其 可 与 图 17-2 相 比 较 。 编 写 代码 之 后 ， 你 就 会 
完全 明白 这 些 做 法 的 意义 。 以 下 是 生成 图 17-3 的 代码 : 


























# 图 17-3 

library(car) 

library(rgl) 

attach(trees) 

scatter3d(Height, Volume, -1*Girth) 
rgl.snapshot("ch17.3.png", fmt = "png") # 存 入 工作 目录 


图 17-3 显然 更 清晰 了 ， 但 仍然 难以 看 清 所 有 的 点 。 解 决 此 问题 的 一 个 方法 是 从 不 同 的 角度 
观看 图 ， 通 过 改变 变量 的 顺序 可 以 轻松 实现 这 一 点 ， 如 图 17-4 所 示 。 更 好 的 做 法 是 ， 通 过 
添加 如 下 代码 中 的 参数 revolutions = n， 你 可 以 让 图 形 在 屏幕 上 旋转 n 次 ,以便 从 各 个 角 
度 进行 观察 。 尝 试 一 下 吧 | 



































# 图 17-4 
library(car) 
library(rgl) 
attach(trees) 


scatter3d(Girth, Volume, Height, revolutions = 2) 
rgl.snapshot("chi7.4.png", fmt = "png") # 存 入 工作 目录 
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17-4: 从 另 一 个 视角 查看 图 17-3。 参 数 revolutions = 2 可 使 其 在 屏幕 上 旋转 2 (HMB) 


scatter3d() 有 许多 自 定 义 选 项 ， 如 颜色 、 平 面 网 格 上 的 线 、 转 速 等 。 获 取 更 多 信息 ， 请 


输入 ?scatter3d 查询 。 


17.2 WER 


三 维 散 点 图 展现 水 平 、 垂 直 和 对 角 线 三 个 维度 。 这 样 做 有 时 可 行 ， 有 时 却 令 人 困惑 。 第 三 
个 维度 还 有 一 种 展现 方法 ， 就 是 使 用 颜色 渐变 来 给 出 深度 感 。 这 类 图 被 称 为 伪 色 图 (false- 
color plot)， 这 种 三 维 图 是 由 lattice 包 中 的 levelplot() 函数 实现 的 。 例 子 如 图 17-5 所 
示 ， 两 个 变量 用 空间 表示 ， 第 三 个 维度 通过 颜色 强度 表示 。 此 处 绘制 的 coalash 数据 集 来 





























自 Gomez 和 Hazen (1970)， 可 在 sm 包 中 找到 。 




















纵 轴 和 横 轴 代表 偏 北 和 偏 东 方向 ， 而 渐变 颜色 代表 coalash MLE. MB 


度 有 多 高 以 及 相应 的 精确 位 置 。 生 成 该 图 的 代码 如 下 。 


# 图 17-5 

library(lattice) 

library(sm) 

data(coalash) 

attach(coalash) 
levelplot(Percent ~ East*North) 











上 很 容易 看 到 浓 
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图 17-5: 通过 lattice 包 中 的 levelplot() 生成 的 coalash 数据 的 伪 色 图 .任意 点 上 coalash 的 总 
量 由 颜色 梯度 表示 ( 另 见 彩 插 ) 


17.3 气泡 图 
另 一 种 展现 三 维 数据 的 图 形 是 气泡 图 (bubble plot) 。 在 这 种 类 型 的 图 中 ， 两 个 变量 绘制 在 
x 轴 和 ?了 轴 上 ， 而 第 三 个 变量 由 图 上 的 圆 的 面积 或 “气泡 ”表示 。 基 础 及 中 的 symbols() 
国 数 可 以 创建 气泡 图 ， 但 我 发 现 PlotBubble() 更 易于 使 用 ， 你 可 以 在 DescTools 包 中 找到 
它 的 语法 如 下 : 
PlotBubble(x = x-variable, y = y-variable, 
area = var represented by bubble, 
col = bubble color, 


border = color of bubble border, 
inches = diameter of largest bubble) 
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参数 x、y、area 和 col 都 是 必需 的 。 请 注意 ， 因 为 圆 的 面积 与 半径 的 平方 成 比例 ， 所 以 要 
使 area 变量 与 气泡 所 代表 变量 的 平方 根 (square root) 成 比例 。 否 则 ， 气 泡 之 间 的 大 小 差 
距 可 能 会 比较 悬殊 。 另 一 种 思考 方式 是 ， 变 量 的 大 小 应 该 由 气泡 的 面积 而 非 气泡 的 直径 来 
表示 。 和 幸运 的 是 ，pLotbubbte() 会 自动 实现 这 种 表示 方法 。 如 果 使 用 symbots()， 就 必须 
调整 Volume。 我 用 两 个 函数 分 别 运行 了 儿 个 同样 的 问题 并 测量 气泡 ， 如 果 不 这 样 做 ， 我 就 
无 法 打消 顾虑 。 你 可 能 也 需要 这 样 做 。 












































首先 ， 考虑 trees 数据 ， 用 气泡 表示 变量 Volume。 图 17-6 的 代码 (如 下 所 示 ) 表明 ， 
Volume 已 分 配给 参数 area, trees 数据 的 气泡 图 可 能 比 基 于 相同 数据 的 三 维 图 更 清楚 一 点 。 
这 是 因为 数据 量 小 且 参 数 inches 设置 适当 ， 儿 乎 没有 重 县 的 气泡 (尝试 设置 不 同 大 小 的 
inches， 看 看 结果 如 何 ) : 


















































# 图 17-6 

library(DescTools) 

attach(trees) 

PlotBubble(x = Height, y = Girth, area = Volume, 
col="steelblue", border = "burlywood", 
inches = .25, 
xlab = "Height", ylab = "Girth", 
main = "Tree volume, proportional to circle area", 
family = "HersheySerif", font.main = 4, 
col.main = "maroon") 








17-6 展示 了 该 脚本 创建 的 气泡 图 。 


为 了 举例 说 明 气 泡 图 的 另 一 个 用 途 ， 我 们 考虑 一 个 更 大 的 数据 集 : 来 自 Sleuth 包 的 
ex0923。 数 据 取 自 对 男性 和 女性 收入 的 研究 ， 包 括 了 受 访 者 的 教育 程度 和 智商 。 我 们 的 目 
标 是 生成 一 个 显示 Educ、AFQT 和 Income2005 三 个 定量 变量 的 图 ， 通 过 Gender 进行 划分 。 
也 就 是 说 ， 图 中 会 显示 四 个 变量 。 在 PlotBubble() 中 ， 参 数 area 对 Income2005 进行 操作 ， 
但 是 这 个 数据 集 存在 一 个 问题 ， 因 为 少数 收入 值 非常 高 ， 超 过 了 50 万 美元 。PLotBubble() 
显然 调整 过 度 了 ， 在 图 上 留 下 了 太 多 空白 ， 而 且 人 迫使 所 有 点 挤 在 一 起 。 要 修正 这 种 情况 ， 
可 以 把 所 有 的 收入 除 以 1000， 由 此 调整 数据 。 这 样 可 以 使 所 有 个 人 收入 之 间 的 关系 保持 不 
变 ， 同 时 还 解决 了 拥挤 的 问题 ， 代 码 如 下 : 









































# 图 17-7 
library(DescTools) 
Library(SLeuth3) 
attach(ex0923) 
PlotBubble( x= Educ, y = AFQT, area = Income2005/1000, 
col = SetAlpha(as.numeric(Gender)), border = "burlywood", 
inches = .5, xlab = "Education", ylab = "AFQT test score") 
title(main = "Income, proportional to circle area") 
legend("left", c("Female","Male"), 
text.col = c(1:2), cex =.9, bty = "n") 
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trees 数 据 的 voLume 变 量 与 圆 的 面积 成 正比 





Girth 





Height 








B 17-6; trees 数据 的 气泡 图 


参数 col = SetAlpha(as.numeric(Gender )) 使 Gender 的 两 个 值 颜色 不 同 。 人 参数 inches = .5 
使 最 大 的 气泡 半 英 寸 宽 ， 并 以 其 为 参照 ， 缩 放 其 他 所 有 气泡 为 合适 的 大 小 。 在 legend() f 
Ah, Gender 的 两 个 值 是 按 字母 顺序 排列 的 ， 确 保 为 颜色 分 配 正 确 的 名 称 。 
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图 17-7: 与 教育 水 平和 智商 相关 的 收入 的 气泡 图 


气泡 图 显示 ，Educ 和 AFQT 是 相关 的 ， 但 我 们 很 难 就 收入 得 出 结论 ， 因 为 有 很 多 圆圈 重 又 
在 了 一 起 。 增 大 inches 会 雪上 加 霜 ， 减 小 inches 才 是 有 用 的 举措 。 试 着 把 inches 设置 
为 不 同 的 尺寸 ， 看 看 效果 如 何 。 你 可 能 不 会 找到 一 个 非常 合适 的 值 ， 因 为 对 于 大 量 数据 来 
说 ， 气 泡 图 效果 并 不 好 。 为 了 查看 样本 大 小 会 产生 什么 样 的 影响 ， 我 们 对 数据 集 进 行 随 机 
抽样 ， 并 绘制 新 的 气泡 图 。 我 们 把 数据 从 2500 多 个 观测 值 削减 到 100 个 ， 用 sample() K 
数 选 择 一 个 有 100 行 数 据 的 随机 样本 即 可 。 此 后 ， 使 用 [] 方法 (查看 12.1 节 回 顾 该 方法 ) 
查看 完整 数据 集 的 子 集 ， 只 保留 来 自 随机 样本 的 行 ， 但 保留 所 有 的 列 。 值 得 注意 的 是 ， 由 
此 得 出 的 结果 子 集 是 较 大 数据 集 的 随机 抽样 ， 因 为 samp = ex6923[s,] 中 的 行 来 自 随机 样 
本 。 完 整 的 脚本 如 下 : 

































































# 图 17-8 
library(DescTools) 
Library(Sleuth3) 
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attach(ex0923) 


# 取 自 ex0923 的 随机 样本 





set.seed(3) # 每 次 均 获取 相同 的 随机 样本 

s = sample(nrow(ex0923), 100) # 随机 抽样 100 行 ID 

samp = ex0923[s, ] # ex0923 中 和 s 中 相同 的 所 有 行 的 所 有 列 
detach(ex0923) # R 不 会 使 用 整个 ex0923 数 据 集 
attach(samp) # R 将 使 用 子 数据 集 


PlotBubble( x= Educ, y = AFQT, area = Income2005/1000, 

col = SetAlpha(as.numeric(Gender) +3), border = "burlywood", 

inches = .25, xlab = "Education", ylab = "AFQT test score") 
title(main = "Income, proportional to circle area") 
legend("left", c("Female","Male"), 

text.col = c(1:2)+3, cex =.9, bty = "n") 


结果 如 图 17-8 所 示 。 





收入 与 圆 的 面积 成 正比 
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图 17-8; ex0923 数据 集 的 随机 抽样 ， 关 于 教育 水 平 、 智 商 、 收 入 和 性 别 的 气泡 图 
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参数 col = SetAlpha(as.numeric(Gender) +3) 使 Gender 的 两 个 值 的 颜色 不 同 ， 并 按 色 阶 用 
三 步 设置 颜色 ， 实 现 命令 如 下 : 





> library(DescTools) 
> PlotPar() 





因此 ， 图 17-6 使 用 的 颜色 为 深蓝 色 (1 + 3) 和 浅 蓝 色 (2 + 3)， 而 没有 使 用 默认 的 黑色 
(1) 和 红色 (2)。 注 意 ， 一 定 要 用 +3 调整 参数 text.coL， 使 图 例 颜色 和 图 上 的 圆圈 匹配 。 
这 里 还 有 其 他 颜色 的 调 色 板 可 以 选择 。 查 看 其 他 颜色 选项 ， 请 输入 ?hblue 查询 。 





























图 17-8 比 非常 密集 的 图 17-7 更 易于 陪读。 我 们 可 以 清楚 地 看 到 ， 收 入 随 受 教育 程度 和 智 
商 的 增长 而 增长 。 男 性 和 女性 的 收入 也 容易 比较 了 。 在 大 多 数 情况 下 ， 当 其 他 因素 大 致 相 
等 时 ， 图 中 男性 的 气泡 更 大 ， 意 味 着 收入 更 高 。 














17.3.1 练习 17-1 


使 用 三 维 散 点 图 研究 eptcalc 包 的 502 数据 集中 deaths, smoke 和 S02 的 关系 。 在 垂直 轴 上 
绘制 deaths， 并 解释 它 与 其 他 变量 的 关系 。 























17.3.2 ”练习 17-2 
使 用 和 上 一 道 习题 相同 的 数据 ， 在 伪 色 图 中 将 deaths 设 为 伪 色 变量 。 你 从 


结论 ? 








al 





中 得 出 了 什么 
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协同 图 





协同 图 
有 了 时， 两 个 变量 之 间 所 呈现 的 明显 的 相关 性 可 能 是 误导 性 的 。 这 可 能 是 因为 一 个 或 两 个 变 
量 与 第 三 个 变量 之 间 有 强 关 联 。 以 car 包 的 States 数据 集 为 例 。 这 是 SAT 考试 的 数据 ， 
在 美国 许多 学 生 在 考 大 学 的 过 程 中 都 会 参加 该 测试 。States 还 包含 其 他 几 个 关于 1992 年 
州 级 中 学 教育 的 变量 。 该 数据 集中 有 51 个 观测 数据 ， 代 表 各 个 州 以 及 哥伦比亚 特区 。 医 
18-1 所 示 为 SAT 数学 测验 SATM 的 平均 得 分 与 各 州 公共 教育 花费 总 额 (以 千 美元 /学 生 
为 单位 ) 的 散 点 


生成 图 18-1 的 代码 如 下 。 





























a 























# 图 18-1 
library(car) 
attach(States) 
plot(dollars,SATM, 
pch = 16, 

col = "maroon") 
grid(lty = "solid") 








图 18-1 似乎 表明 教育 花费 相对 较 少 的 州 的 SATM 得 分 较 高 ， 而 支出 较 高 的 州 的 得 分 相对 
较 低 。 这 完全 不 合 常理 。 我 们 预计 (或 至 少 期 望 ) 教育 投入 越 多 ， 则 得 分 就 越 高 。 是 不 是 
有 什么 其 他 因素 在 影响 结果 呢 ? 
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18-1: 各 州 的 SATM 平均 得 分 与 公共 教育 花费 总 额 (以 千 美 元 /学 生 为 单位 ) 的 散 点 图 。51 个 点 


分 别 代表 各 州 以 及 哥伦比亚 特区 


该 数据 集 包括 一 个 被 称 为 percent 的 变量 ， 它 是 参加 SAT 考试 的 应 届 毕 业 生 的 百分比 。 各 
州 参 加 考试 的 学 生 的 比例 不 同 ， 测 试 平均 分 是 否 也 有 所 不 同 ? 在 参加 考试 的 学 生 较 少 的 
州 ， 是 不 是 只 有 表现 较 好 的 学 生 参 加 了 考试 ?也 许 在 几乎 每 个 人 都 参加 考试 的 州 ， 那 些 








不 太 有 天 赋 或 是 不 太 积 极 的 学 生 拉 低 了 平均 分 。 我 们 
协同 图 (coplot) ] 来 研究 这 个 问题 。 这 里 的 思路 是 把 数据 分 片 ， 以 便 查看 在 条 件 变量 


可 以 用 条 件 





图 [conditioning plot， 或 











percent 取 不 同 的 值 时 ，SATM 和 dollars 的 散 点 图 。 若 所 有 散 点 图 看 起 来 都 相同 或 非常 相 
似 ， 则 表明 percent 不 影响 输出 结果 。 若 图 看 起 来 相当 不 同 ， 则 表明 percent 确实 影响 了 
SATM 和 dollars 之 间 的 关系 。coplot() 函数 用 到 的 公式 形式 如 下 : 
































yr~x|z 





在 这 里 ，y 是 垂直 轴 ，x 是 水 平 轴 ，z 是 条 件 变 量 。 以 两 个 变量 a 和 4b 为 条 件 也 可 以 ， 在 这 
种 情况 下 ， 公 式 为 y~x|a* bp。 生成 图 18-2 中 协同 图 的 脚本 如 下 : 











# 图 18-2 

library(car) 

attach(States) 

coplot(SATM ~ dollars | percent, 
pch = 16, 
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col = "royalblue", 
bar.bg = c(num = "goldenrod2")) 

















图 18-2 显示 了 6 张 散 点 图 ， 每 张 图 对 应 一 个 特定 取 值 范围 内 的 percent 数据 “ 片 ” 或 子 
集 。 图 顶部 的 框 中 显示 了 一 组 6 个 条 ， 每 个 条 表明 每 张 散 点 图 所 洱 盖 的 百分比 范围 。 左 下 
角 的 条 表明 左下 角 的 图 涵盖 了 percent 不 高 于 12% 的 州 。 从 下 往 上 数 的 第 二 条 表示 下 面 
一 行 中 的 第 二 张 图 涵盖 了 percent 约 为 8%~16% 的 州 。 最 上 面 一 条 表示 右上 角 的 图 涵盖 了 
percent 不 小 于 54% 的 州 。 该 协同 图 似乎 和 之 前 提出 的 假设 一 致 : 参加 考试 的 学 生 比 例 较 
低 的 州 得 分 最 高 ， 参 加 考试 的 学 生 比 例 较 高 的 州 得 分 较 低 。 此 外 ， 这 6 张 图 中 似乎 都 看 不 
出 SATM 和 dollars 之 间 有 任何 显著 关联 。 




































































Given : percent 


10 20 30 40 50 60 70 
1 1 | 1 | fi 








3 4 5 6 7 8 9 3 4 5 6 7 8 9 








SATM 











3 4 5 6 7 8 9 


dollars 











& 18-2: SATM 和 dollars (美元 ) 的 协同 图 ， 以 percent (参加 SAT 考试 的 应 届 毕 业 生 的 百分比 ) 
为 条 件 变量 








图 18-2 中 的 条 存在 重合， 这 意味 着 一 些 州 的 情况 在 2 张 或 3 张 图 中 都 有 所 体现 。R 默认 这 
样 做 ， 以 确保 每 一 张 图 中 有 足够 多 的 点 ， 从 而 能 绘制 出 一 张 有 用 的 图 。 注 意 ， 每 一 张 图 中 
大 约 有 15~17 个 点 。 如 果 每 张 图 都 不 重 登 ， 那 么 每 张 图 仅 有 8 或 9 个 点 (51 除 以 6)， 根 
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据 分 隔 点 的 位 置 ， 点 也 可 能 更 多 或 更 少 。 在 这 种 情况 下 ，R 默认 的 选择 似乎 已 经 完成 了 我 
们 所 期 望 的 ， 但 情况 并 不 总 是 这 样 。 


使 用 参数 number 可 以 控制 分 片 的 数量 ， 使 用 参数 overlap 可 以 控制 单个 片 重 且 的 程度 ， 如 
下 例 所 示 : 





# 图 18-3 

library(car) 

attach(States) 

coplot(SATM ~ dollars | percent, 
pch = 16, 
col = "royalblue", 
bar.bg = c(num = "seagreen"), 
overlap = 0, 
number = 5) 





从 图 18-3 中 可 以 看 到 ， 现 在 只 有 5 片 ， 且 互 不 重 倒 。 注 意 ， 在 所 有 图 中 ，R 选择 的 切 制 点 
的 位 置 ， 会 以 所 有 图 中 点 的 数量 大 约 相等 的 方式 来 创建 分 片 。 

















Given : percent 








SATM 








3 4 5 6 7 8 9 


dollars 











图 18-3: 以 percent 为 条 件 变 量 的 SATM 和 dollars 的 协同 图 ， DASA, SREB 
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即使 我 们 放弃 控制 切割 点 ， 而 交 由 及 处理， 图 18-3 中 的 结果 图 看 起 来 仍然 很 好 。 在 某 些 
情况 下 ， 我 们 可 能 需要 找到 精确 的 切割 点 ， 而 不 去 利用 R 的 智能 。 这 是 可 以 做 到 的 ， 但 需 
要 花费 精力 。 假 设 我 们 想 要 4 张 不 重合 的 图 ， 并 选择 精确 的 切 制 点 。 我 们 需要 创建 一 个 4 
ITERE, BTR. ATTA TS: 图 中 最 低 的 percent 和 最 高 的 percent, 4E 
阵 名 将 提供 给 参数 given.values, #240 PATA: 


























获取 更 多 关于 创建 矩阵 的 信息 ， 请 输入 ?matrix。 

















图 18-4 中 4 片 的 percent 宽度 完全 相等 (最 高 的 片 除外 )， 但 各 图 中 的 点 数 完全 不 同 ， 其 
脚本 如 下 : 








# 图 18-4 

library(car) 

attach(States) 
mat = matrix(c(0,19.9,20,39.9,40,59.9,60,75), 
byrow = T, 

nrow = 4, 

ncol = 2) 
coplot(SATM ~ dollars |percent, 
pch = 16, 

col = "royalblue", 

bar.bg = c(num = "maroon"), 
given.values = mat) 


结果 如 图 18-4 所 示 。 
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Given : percent 








SATM 
520 560 
440 480 520 560 


480 





440 





T T T T T T T 
3 4 5 6 7 8 9 


dollars 








图 18-4: 以 percent 为 条 件 变量 的 SATM 和 dollars 的 协同 图 ， 分 为 4 片 ， 自 定义 精确 切割 点 


percent 和 SATM 之 间 依 然 呈 现 出 很 强 的 联系 ， 我 们 的 结论 并 没有 改变 。 在 这 种 情况 下 ， 一 
个 面板 中 的 点 不 少 于 5 个。 然而， 一 个 或 多 个 面板 包含 0、1 或 2 个 点 的 情况 也 可 能 出 现 ， 
这 样 的 面板 没有 什么 价值 ， 或 难以 解释 。 因 此 ， 如 图 18-2 所 示 ，R 默认 重合 各 条 ， 以 避免 
硬 板 上 的 点 过 少 其 至 为 空 。 我 们 总 是 可 以 选择 创建 一 个 面板 不 重合 的 协同 图 。 当 给 定 足 够 
多 的 点 时 ， 图 形 往往 更 易于 解释 。 
















































































练习 18-1 
污染 会 造成 死亡 吗 ? 研 究 死 亡 率 与 大 气 污染 的 关系 ， 数 据 来 自 sleuth2 包 的 ex1123 数据 
集 。 二 者 之 间 的 明显 关联 是 否 可 以 用 其 他 因素 来 解释 ? 
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RAT: 例 状 图 和 热 图 





19.1 聚 类 分 析 


REAM (clustering) 是 指 一 系列 探索 多 变量 数据 的 相关 方法 。R 中 有 几 十 个 可 用 的 聚 类 
分 析 函 数 。 本 章 我 们 只 关注 其 中 一 个 : 基础 R 中 的 hclust() 函数 。 该 函数 可 以 进行 层次 

聚 类 分 析 (hierarchical clustering) ， 这 是 最 常用 的 聚 类 技术 之 一 ， 总 体 来 说 非常 适合 入 门 级 
的 聚 类 分 析 。 它 的 思 ONE ee 其 中 单一 集群 中 的 成 员 彼 此 相位 
且 和 其 他 集群 中 的 观测 值 不 同 。 此 外 ， 某 个 集群 可 能 被 判断 为 与 其 他 集群 有 不 同 程度 的 相 
似 之 处 。 我 们 将 通过 树 状 图 (dendrogram) 来 理解 集群 间 的 关系 ， 它 看 起 来 像 一 棵 倒置 的 
树 。 本 章 后 面 的 图 19-2 呈现 了 一 个 树 状 图 的 例子 。 















































考虑 mtcars 数据 集 ， 它 来 自 《 汽 车 族 》 杂 志 1974 年 关于 多 款 新 车 型 特点 的 报告 。 我 们 用 
head() 函数 来 看 一 下 该 数据 集 的 前 6 行 数据 ， 代 码 如 下 ; 


> head(mtcars) 
mpg cyl disp hp drat wt qsec vs am 


Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 

Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 

Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 

Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 

Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 

Valiant 18.1 6 225 105 2.76 3.460 20.22 1 0 
gear carb 

Mazda RX4 4 4 

Mazda RX4 Wag 4 4 

Datsun 710 4 1 

Hornet 4 Drive 3 1 

Hornet Sportabout 3 2 

Valiant 3 1 
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我 们 想 把 各 种 各 样 的 车 型 分 为 集群 ， 把 相似 的 汽车 放 在 同一 集群 中 。 有 两 种 办 法 可 以 做 
到 这 一 点 。 一 种 是 聚合 方法 (agglomerative method) ， 首 先 创 建 一 个 包含 最 匹配 对 的 集群 ， 
然后 创建 一 个 匹配 度 次 之 的 集群 ， 甚 中 的 对 数据 可 以 是 单个 观测 值 对 ， 或 者 是 单个 观测 值 
和 已 存在 的 集群 对 ， 以 此 类 推 ， 直 到 所 有 观测 值 都 在 一 个 大 集群 中 。 另 一 种 是 分 裂 方法 
(divisive method)， 即 将 总 集 分 为 子 集 ， 子 集 再 分 为 更 小 的 子 集 ， 以 此 类 推 。 BARA JLP 
方法 可 用 ,但 hclust() 函数 使 用 聚合 方法 。 我 们 将 使 用 默认 的 “complete” 方 法 。 


我 们 应 该 如 何 测 量 两 个 观测 值 间 的 相似 性 或 者 距离 呢 ? 这 需要 找到 一 个 测量 办 法 ， 融 合 所 
有 可 用 的 信息 ， 以 确定 一 种 车 型 和 另 一 种 车 型 之 间 的 “距离 "。 如 果 只 考虑 一 个 变量 ， 那 
么 我 们 显然 应 该 选择 测量 车 型 在 这 个 变量 值 上 的 绝对 差异 。 然 而 ， 在 我 们 的 例子 中 有 11 
个 变量 ， 所 以 我 们 希望 距离 测量 考虑 到 所 有 变量 。 我 们 从 一 个 较 简 单 的 例子 开始 。 假 设 
有 两 辆 车 Car-1 和 Car-2， 每 辆 车 都 对 两 个 变量 x 和 yy 进行 了 测量 。 因 此 ，Car-1 对 应 点 
(x1, yi), Car-2 对 应 点 0, 2) 。 这 两 点 展示 在 图 19-1 左上 方 的 图 中 。 图 19-1 右上 方 的 图 以 
实 线 标 出 了 两 点 之 间 的 最 短 距离 。 









































变量 x 和 y， 观 测 值 1 和 2 欧 氏 距离 


e (x2, Y2) 





y e(x4,y1) y 


(x2 一 X1)2 十 (v2 —y1)? 





曼哈顿 距离 


|x2- x4] + |y2 -yl 





x 


19-1; 二 维 空间 中 的 距离 测量 
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注意 ， 这 条 线 是 直角 三 角形 的 斜 边 ， 因 此 很 容易 计算 距离 ， 如 下 所 示 : 








distance = sqrt[(x2 - x1)^2 + (y2 - y1)^2] 


记 住 ， 斜 边 平方 等 于 两 边 的 平方 和 。 该 距离 被 称 为 欧 氏 距离 (Euclidean distance), 4 RF 
的 dist() 函数 默认 使 用 的 距离 测量 方法 。 此 外 ， 还 有 其 他 几 种 测量 距离 的 方法 。 图 19-1 
的 左下 图 展示 了 其 中 一 个 称 为 曼哈顿 距离 (Manhattan distance) 的 方法 ， 也 叫 “ 出 租车 几 
何 ” 或 “城市 街区 距离 "。 根 据 你 所 解决 的 具体 问题 ， 该 方法 或 许 更 合适 。R 提供 了 这 种 
方法 和 其 他 几 种 可 用 的 方法 ， 但 我 们 将 继续 用 欧 氏 距离 处 理 该 问题 。 如 果 有 3 个 变量 ， 你 
可 以 按 如 下 方式 扩展 欧 氏 方法 : 


















































Euclidean distance = sqrt[(x2 - x1)^2 + (y2 - y1)^2 + 
(z2 - z1)2] 

















同 理 ， 可 以 将 测量 扩展 ， 尽 可 能 涵盖 更 多 变量 。 








在 图 中 加 入 数学 表达 式 


有 了 时 ,一 个 数学 公式 或 表达 式 就 可 以 大 大 提升 图 形 效 果 。 幸 运 的 是 ，R 允许 将 
expression 作为 text(), mtext(), axis() 和 legend() 中 任意 一 个 函数 的 参数 来 添加 
这 样 的 表达 式 。 下 面 的 脚本 以 text() 命令 包含 数学 表达 式 ， 生 成 了 图 19-1: 


# 图 19-1 的 脚本 
par(mfrow = c(2,2)) 
x = c(2,5) 

y = c(3,6) 

yp = c(0,6) 

xp = c(0,8) 


plot(x,y, pch = 16, xlim = xp, ylim = yp, 
xaxt ="n", yaxt = "n", bty ="L", 
main="Variables x and y, Observations 1 and 2", 


cex.main = .9, 

ylab = "") 
text(x = 3.2, y = 3, 

labels = expression(group("(", list(x[1], y[1]), ")"))) 
text(x = 6.2, y = 6, 

labels = expression(group("(", list(x[2], y[2]), ")"))) 


mtext(text = "y", 
side = 2, las = 1, 


cex = .8, line = 3) 

plot(x, y, pch = 16, type = "o", xlim = xp, ylim = yp, 
main = "Euclidean distance", 
xaxt = "n", yaxt = "n", bty = "l", ylab = "") 


text(3.6, 1.5, labels = 

expresston(sqrt((x[2] - x[1])*2 + (y[2] - y[1])*2))) 
lines(x, y, type = "s", lty = "dotted") 
mtext(text = "y", side = 2, las = 1, cex = .8, line = 3) 
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plot(x,y, 
pch = 16, xlim = xp, ylim = yp, 
main = "Manhattan distance", 
xaxt = "n", yaxt = "n", bty = "l", ylab = "") 
lines(x,y,type="s"_ ) 
text(3.6, 1.5, 
labels = expression(group("|", x[2] - x[1],"|") + 
group("|",y[2] - y [1],"|"))) 
mtext(text = "y", side = 2, las = 1,cex = .8, line = 3) 


关于 使 用 细节 ， 请 参考 plotmath 帮助 文件 。 














mtcars 中 变量 的 值 差 别 很 大 。 例 如 ，disp 的 值 远 远 超过 100， 但 cyl 的 值 均 为 个 位 数 。 这 
意味 着 ， 在 确定 距离 方面 ， 如 果 仅 考虑 测量 值 的 范围 ，disp 对 距离 的 影响 远 胜 cyl, AR 
一 下 ， 两 个 测量 长 度 的 变量 ， 一 个 以 英寸 为 单位 ， 而 另 一 个 以 英尺 为 单位 ， 那 么 完全 相同 
的 距离 将 会 记录 为 完全 不 同 的 数字 ， 较 大 的 数字 对 欧 氏 距离 的 影响 较 大 。 因 此 ， 一 定 要 将 
所 有 变量 转换 为 可 比较 的 测量 尺度 。 
























































我 们 可 以 运用 一 个 简单 的 变换 来 进行 规范 化 (normalize) 或 标准 化 (standardize)， 也 就 是 
使 每 个 变量 的 平均 值 为 0， 标 准 差 为 1。 我 们 先 在 mpg 上 尝试 使 用 这 种 变换 。 首 先 获 得 mpg 
的 均值 和 标准 差 ， 代 码 如 下 : 











> mean(mpg) 
[1] 20.09062 
> sd(mpg) 
[1] 6.026948 


从 mpg 的 每 个 值 中 减 去 均值 并 用 结果 除 以 标准 差 ， 将 获得 一 个 均值 为 0， 标准 差 为 1 的 变 
量 mpg， 代 码 如 下 : 




















> mpg2 = (mpg - 20.09)/6.026948 

> mean(mpg2) 

[1] 0.0001037009 # 小 舍 入 错误 | 
> sd(mpg2) 

[1] 1 





这 种 规范 化 非常 常见 ， 因 此 R 为 这 个 过 程 提供 了 一 个 函数 ， 使 其 只 需 一 步 操 作 ， 代 码 如 下 : 


> mpg3 = scale(mpg) 

> mean(mpg3) 

[1] 7.112366e-17 # 很 小 ,很 小 ;实际 上 = 0 
> sd(mpg3) 

[1] 1 


幸运 的 是 ， 我 们 不 需要 按 比例 缩放 每 个 变量 ， 而 可 以 一 次 操作 整个 矩阵 。 现 在 我 们 将 数据 
框 转换 为 矩阵 ， 对 按 比 例 缩放 的 矩阵 进行 距离 测量 ， 计 算 集群 ， 并 绘制 树 状 图 。 代 码 如 下 : 
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# 图 19-2 
attach(mtcars) 
cars = as.matrix(mtcars) # 转换 为 矩阵 ,dist 需 要 它 


























h = dist(scale(cars)) # Apicars#Epest-i} diste 
h2 = hclust(h) # 聚 类 分 析 
plot(h2) # 绘制 树 状 图 


























图 19-2 中 的 树 状 图 显示 了 聚 类 分 析 的 结果 。 
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19-2; mtcar 数据 集中 集群 的 树 状 图 

垂直 标尺 为 “高 度 ”(Height) ， 可 以 帮助 我 们 理解 集群 的 形成 过 程 。 这 个 图 形 看 起 来 就 像 很 
多 U 形 钉 把 同一 集群 中 的 观测 值 连 接 了 起 来 。 沿 Height 标尺 观察 ，U 形 钉 水 平 部 分 越 向 下 ， 
相关 集群 形成 得 越 旱 。 因 此 ， 高 度 接近 零 的 U 形 钉 是 第 一 个 形成 的 ， 因 此 最 接近 欧 氏 距离 。 
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高 度 接近 8 的 集群 是 最 后 形成 的 ， 因 此 相对 较 远 。 彼 此 相 邻 的 集群 的 距离 不 一 定 得 ! 例 
如 ， 图 右 侧 两 个 Mazda 车 型 非常 接近 ， 在 高 度 约 1 的 位 置 已 经 形成 了 一 个 集群 。 而 Ford 
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Pantera 紧 挨 着 Mazda 的 集群 ， 但 和 Mazda 不 是 特别 接近 ， 因 为 它们 直到 高 度 达 到 5 时 才 
进入 同一 个 集群 。 


通过 转 置 ，cars 矩阵 也 可 以 聚 类 变量 ， 而 不 是 观测 值 。 有 具体 做 法 就 是 使 第 一 行 成 为 第 一 
列 ， 第 一 列 成 第 一 行 ， 以 此 类 推 ， 代 码 如 下 : 

newcars = t(cars) # newcars 是 cars 的 转 置 扎 阵 

h = dist(scale(newcars)) 


h2 = hclust(h) 
plot(h2) 


19.2 HA 


查看 热 图 (heat map) 是 获取 mtcars 数据 集中 所 有 数据 概况 的 另 一 种 方式 。 在 此 类 可 视 化 
图 中 ， 标 准 化 矩阵 中 的 每 个 数字 都 被 转换 成 一 个 颜色 矩形。 这 个 过 程 以 系统 的 方式 实现 ， 
以 颜色 表示 数字 的 近似 值 或 强度 。 例 如 ， 我 们 或 许 会 用 深 红色 代表 非常 小 的 数字 ， 浅 红 
色 、 柳 色 、 黄 色 对 应 的 数字 不 断 增 大 ， 最 后 是 代表 最 大 数字 的 白色 。 这 是 image() 函数 默 
认 的 色 域 ， 除 此 之 外 还 有 许多 其 他 颜色 集 可 用 。 图 19-3 显示 了 mtcars 数据 集中 按 比例 缩 
放 值 的 简单 热 图 ， 生 成 代码 如 下 : 





# 图 19-3 

attach(mtcars) 

cars = as.matrix(mtcars) 
image(scale(cars)) # 简单 的 热 图 
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图 19-3: 以 默认 颜色 表示 的 ntcars 数据 集 的 热 图 ( 另 见 彩 插 ) 
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参数 col = rainbow() 控制 image() 函数 的 色 域 。 另 一 个 可 用 的 颜色 方案 是 一 系列 蓝 色 (由 
深 到 浅 )。 下 面 的 命令 展示 了 如 何 调用 一 系列 蓝 色 , 

# 图 19-4 

image(scale(cars), col = rainbow(256, start = .5, end = .6)) 


# 蓝 色调 的 热 图 
结果 如 图 19-4 所 示 。 
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819-4; 用 一 系列 蓝 色 表示 的 mtcars 数据 集 的 热 图 ( 另 见 彩 插 ) 


不 是 所 有 的 颜色 集 都 很 容易 理解 。 什 么 颜色 都 有 的 图 形 让 人 困惑 ， 例 如 ， 你 很 难 知道 深 绿 
色 和 深蓝 色 哪个 代表 更 大 的 数字 。 而 对 于 大 多 数 人 来 说 ， 图 19-3 和 图 19-4 中 的 配色 方案 
是 比较 容易 掌握 的 。 参 数 rainbow 中 每 一 个 start 和 end 的 值 必 须 大 于 等 于 0， 但 不 大 于 
1， 且 两 者 的 值 不 能 相等 。 你 可 以 尝试 不 同 的 值 ， 看 看 能 否 找到 一 组 值 ， 和 本 例 展示 的 两 
张 图 效果 一 样 好 。 获 取 更 多 信息 ， 请 输入 ?ratnbow 查询 。 


图 19-3 和 图 19-4 中 的 热 图 转向 一 边 ， 如 同 数 据 和 矩阵 倒 向 了 左边 。 如 果 数 一 下 ， 你 可 以 发 
现 图 中 有 11 行 32 列 ， 而 原始 数据 集 为 11 列 32 行 。 虽然 颜色 显示 了 大 范围 的 值 ， 包 括 许 
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多 深 红色 ( 低 ) 值 以 及 一 些 浅 黄色 和 白色 (高) 的 值 ， 但 图 中 似乎 没有 任何 明显 的 模式 。 


正如 在 聚 类 分 析 中 所 做 的 一 样 ， 我 们 希望 在 数据 中 找 出 模式 。 实 际 上 ， 我 们 可 以 将 树 状 图 
和 热 图 融合 到 一 个 可 视 化 展示 中 ， 以 帮助 理解 变量 和 特定 车 型 之 间 的 关系 。heatmap() ek 
数 可 以 在 进行 聚 类 分 析 的 同时 绘制 热 图 。 在 这 里 ， 行 和 列 会 重新 排序 ， 把 相似 的 放 在 一 
起 ， 且 单元 格 会 涂 成 适当 颜色 。 如 下 命令 使 用 默认 选项 生成 图 19-5。 














> heatmap(scale(cars)) # 图 19-5 


关于 许多 可 用 选项 的 更 多 信息 ， 请 查看 帮助 文件 。 你 可 以 查 到 如 何 包 含 一 个 
行 或 列 的 树 状 图 、 用 于 测量 距离 的 方法 、 如 何 加 权 行 和 列 ， 等 等 。 
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S 19-5: mtcars 中 集群 的 热 图 ( 另 见 彩 插 ) 
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在 图 19-5 中 可 以 看 到 一 些 醒目 的 模式 。 注 意 颜色 如 何 将 一 些 车 型 组 和 其 他 组 分 开 。 将 这 些 
集群 与 左边 的 树 状 图 进行 比较 ， 你 可 以 看 到 ， 某 些 车 型 在 相同 的 集群 中 ， 而 且 同 一 集群 中 
的 模型 ， 其 变量 之 间 有 相似 的 颜色 模式 ， 这 一 点 在 最 早 形成 的 集群 中 最 为 明显 。 


图 19-6 中 显示 了 一 张 类 似 的 热 图 。 
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图 19-6: 使 用 gplots 包 中 的 heatmap.2() 生成 的 mtcars 的 热 图 (ANEHE) 


图 19-6 是 使 用 gplots 包 中 的 heatmap.2() 函数 生成 的 。heatmap.2() 提供 了 两 个 额外 的 特 
征 ， 使 图 更 易于 理解 。 首 先 ， 左 上 角 有 一 个 键 ， 表 明了 颜色 与 变量 值 之 间 的 关系 。 其 次 ， 
有 一 组 垂直 线 贯穿 每 一 列 ， 其 中 虚线 代表 0， 实 线 表示 特定 单元 中 值 与 0 的 差异 。 这 样 加 
强 了 键 的 效果 ， 方 便 确认 每 个 单元 。 生 成 该 图 的 代码 如 下 。 








# 图 19-6 
library(gplots) 
heatmap.2(scale(cars)) 
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聚 类 分 析 不 是 精确 的 科学 分 析 ， 而 是 一 种 在 复杂 的 数据 中 寻找 规律 的 方法 。 聚 类 算法 、 树 
状 图 和 热 图 是 寻找 规律 时 使 用 的 工具 。 和 其 他 的 工具 一 样 ， 它 们 可 以 帮助 我 们 达成 目标 ， 
如 果 我 们 使 用 时 不 小 心 ， 它 们 也 会 造成 麻烦 。 上 述 讨 论 远 非 对 聚 类 分 析 的 完整 的 解释 ， 而 
是 一 个 引子 ， 也 许 这 可 以 向 励 你 前 进 ， 继 续 学 习 。R 中 还 提供 了 许多 其 他 的 聚集 分 析 和 热 























19.2.1 练习 19-1 


使 用 不 同 的 聚 类 方法 ， 为 mtcars 数据 创建 新 的 树 状 图 。 你 可 以 用 帮助 函数 (?hctust) 查 
看 有 哪些 可 用 的 方法 。 不 同方 法 创建 的 图 形 有 什么 不 同 ? 其 他 方法 不 一 定 会 给 出 相同 的 答 
案 。 你 可 能 会 发 现 一 个 方法 能 很 好 地 解决 一 个 问题 ， 却 不 能 很 好 地 解决 男 一 个 问题 。 此 
外 ， 你 还 可 以 尝试 以 不 同 的 方法 测量 距离 。 请 输入 ?dist 查看 可 用 的 方法 。 














19.2.2 ”练习 19-2 
分 别 使 用 下 列 颜色 方案 中 的 每 一 种 ， 为 mtcars 数据 绘制 热 图 。 





heat.colors 
cm.colors 
terrain.colors 
topo.colors 
rainbow.colors 








某 些 图 是 否 比 其 他 图 更 易于 阅读 ? 你 认为 你 会 继续 使 用 哪 一 个 方案 ? 有 没有 不 打算 使 用 的 


19.2.3 4519-3 


回想 一 下 ， 我 们 在 第 1 章 中 研究 过 的 airquality 数据 有 很 多 缺失 值 。Amelia 包 中 的 
missmap() 国 数 使 用 一 种 简单 的 热 图 寻找 缺失 值 。 请 安装 并 加 载 Amelia， 并 找到 airquality 
的 缺失 值 。 这 张 热 图 为 什么 比 本 章 中 讨论 的 热 图 更 简单 ? 该 图 形 是 如 何 帮助 你 理解 数据 集 
的 ? 将 其 与 epade 包 中 missiogram() 国 数 的 输出 进行 比较 。 
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R208 


马赛 克 图 





A se ok 7 
绘制 分 类 数据 图 形 
目前 为 止 ， 我们 所 研究 的 图 大 部 分 是 关于 定量 变量 的 。 在 一 些 情况 下， 我 们 将 定量 变量 和 
分 类 变量 混合 ， 通 常 使 用 分 类 变量 的 不 同 值 来 定义 组 ， 每 一 个 组 都 有 自己 的 图 形 。 然 而 ， 
有 时 我 们 关注 的 所 有 变量 都 是 分 类 变量 ， 这 时 就 需要 特殊 的 图 形 化 方法 。 






































N 
ba 


我 们 来 探讨 epicale 包 中 的 一 个 数据 集 。 你 需要 安装 该 包 以 及 vcd， 其 中 包括 一 些 处 理 分 
类 变量 的 函数 。 相 关 命 令 如 下 : 





> install.packages("epicalc") 
> install.packages("vcd") 

> library(epicalc) 

> library(vcd) 


我 们 将 查看 ANCdata 数据 集 。 你 需要 获得 一 些 有 关 该 数据 集 的 信息 ， 输 入 以 下 命令 查询 : 


> ?ANCdata 


该 数据 来 自 两 家 诊所 ， 相 关 研 究 关 注 的 是 高 风险 孕妇 的 护理 类 型 。 这 里 有 三 个 变量 ， 均 为 
分 类 变量 ， 每 个 变量 只 有 两 个 值 (水 平 )。 我 们 想 知道 围 产 期 死亡 率 ( 即 七 天 内 新 生 儿 天 
折 和 死胎 的 概率 ) 是 否 与 治疗 的 类 型 以 及 提供 护理 的 诊所 有 关 。 先 来 看 一 下 death (死亡 
率 ) 与 anc (治疗 频率 ) 之 间 的 关系 。 如 下 脚本 中 的 table() 命令 将 统计 两 个 变量 的 组 合 
































注 1: 根据 原 书 作 者 的 补充 说 明 ，CRAN 上 已 经 不 再 提供 epicatc 包 ， 本 章 中 出 现 的 epicalc 包 均 可 替换 为 
epiDisplay 包 。 一 一 编者 注 
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中 观测 值 的 数目 : 














# 表 20-1 

library(epicalc) 

library(vcd) 

attach(ANCdata) 

xtabi = table(death,anc) # 将 此 表 作 为 对 象 "xtab1" 
xtab1 # 打印 xtab1 中 的 值 








K 20-1: 准 妈妈 的 治疗 频率 和 婴儿 死亡 率 


anc 
death old new 
no 373 316 
yes 46 20 





由 此 可 知 ， 接 受 旧 式 (old) 治疗 的 孕妇 生产 后 ， 有 373 名 婴儿 存活 ，46 名 死亡 。 接 受 新 
式 (new) 治疗 的 孕妇 中 ， 有 20 人 失去 了 孩子 ，316 人 幸免 于 难 。 这 张 表 很 简短 ， 但 是 需 
要 花 点 时 间 ， 动 动脑 子 才 能 处 理 好 。 哪 种 治疗 效果 更 好 ? 对 概括 的 数据 进行 可 视 化 的 展 
示 ， 答 案 更 为 明显 。 我 们 将 使 用 马赛 克 图 (mosaic plot)， 用 长 方形 面积 的 大 小 表示 单元 格 
中 的 数目 〈 每 格 的 计数 值 )。 注 意 ， 下 面 的 mosaic() 命令 从 对 象 xtab1 中 的 表 获 取信 息 : 





























> mosaic(xtab1) # 用 命令 操作 表 , 和 原来 的 不 同 
另外 ，mosaic() 命令 可 以 接受 像 公 式 一 样 的 参数 。 因 此 ， 以 下 两 个 命令 是 等 价 的 : 





> mosaic(xtab1) 
> mosaic(~death+anc) 


生成 图 20-1 的 所 有 命令 如 下 所 示 : 





# 图 20-1 

library(epicalc) 

library(vcd) 

attach(ANCdata) 

xtab1 = table(death,anc) 

mosaic(xtab1) # 或 者 mosaic(~deathtanc) 





如 果 我 只 有 一 张 频 率 表 怎么 办 
科学 杂志 、 报 道 或 简报 上 的 文章 可 能 会 给 出 频率 表 ， 这 种 表 类 似 于 我 们 为 ANCdata 数 
据 集 生成 的 表 ( 见 表 20-1)。 也 许 你 想 继续 进行 分 析 ， 但 无 法 获得 原始 数据 。 不 要 灰 
' 心 ， 你 可 以 创建 一 个 简短 的 脚本 ， 包 含 频 率 数据 。 这 样 就 可 以 生成 包括 本 章 所 有 图 在 
内 的 很 多 图 。 这 种 方式 涉及 创建 一 种 类 型 的 数据 结构 。 我 们 还 没有 讨论 过 这 个 数据 结 
构 ， 它 就 是 数组 (array). 


array() 命令 的 基本 形式 如 下 : 
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array(data, dim = length(data), dimnames = list()) 


此 处 ，data 是 一 个 向 量 ，dim 是 表 的 维度 向 量 ，dimnames 是 输出 变量 的 名 称 。 使 用 如 


下 命令 可 以 创建 表 20-1: 


xtab1 = array(c(373, 46, 316, 20), c(2,2), 
list(c("no", "yes"), c("old", "new"))) 


a} & xtabl 本 质 上 和 table() 生成 的 xtabl 是 一 样 的 。 你 也 可 以 在 脚本 中 使 用 下 面 的 等 


效 命令 ， 把 较 长 的 array() 命令 分 成 较 小 的 片段 (一 些 人 觉得 这 样 更 易于 阅读 ) : 


# 输入 ANC 频 率 表 ,而 不 是 读 取 ANC 数 据 

# 双向 表 ,数据 来 自 表 20-1 

library(vcd) 

counts = c(373, 46, 316, 20) # 输入 第 一 列 和 第 二 列 
death = c("no", "yes") 

anc = c("old", "new") 

xtab1 = array(counts, c(2,2), list(death, anc)) 
names(dimnames(xtab1)) = c("death", "anc") 

xtab1 # 打印 表 20-1 

mosaic(xtab1) # 生成 图 20-1 
































# 三 向 表 ,数据 来 自 表 20-2 

library(vcd) 

cnts = c(176, 197, 12, 34, 293, 23, 16, 4) 

clinic = c("A", "B") 

death = c("no", "yes") 

anc = c("old", "new") 

xtab2 = array(cnts, c(2,2,2), list(clinic, death, anc)) 
names(dimnames(xtab2)) = c("clinic", "death", "anc") 
xtab2 # 420-2 

mosaic(xtab2) # 图 20-2 

# 其 他 图 中 使 用 合适 的 mosatic() 命 令 




















如 图 20-1 所 示 ， 接 受 旧 式 疗法 的 孕妇 略 多 








因为 旧式 疗法 对 应 的 块 比 新 式 疗法 的 大 。 婴 儿 


死亡 率 在 接受 旧式 疗法 的 人 中 较 高 。 注 意 ， 旧 式 疗法 对 应 的 块 下 方 ， 表 示 死 亡 人 数 的 矩形 
延伸 到 了 新 式 疗 法 的 块 下 面 ， 而 且 不 只 延伸 了 一 点 点 。 这 表明 death 和 anc 这 两 个 变量 是 
相关 的 (associated， 或 correlated), ， 也 就 是 说 旧式 疗法 组 中 的 死亡 比例 大 于 新 式 疗法 组 中 
的 死亡 比例 。 然 而 正如 我 们 之 前 指出 的 ， 相 关 性 并 不 能 证 明 因果 关系 。 变 量 间 也 有 可 能 存 
































在 更 复杂 的 关系 。 要 确定 这 一 点 ， 我 们 需要 查看 其 他 可 获得 的 变量 。 
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旧式 疗法 新 式 疗法 


是 
二 


death 





= 
ee 


& 20-1; death (死亡 率 ) 和 anc (治疗 频率 ) 的 马赛 克 图 








马赛 克 图 有 助 于 研究 两 个 分 类 变量 ， 在 研究 三 个 变量 时 也 会 说 明 更 多 信息 。 接 下 来 ， 我 们 
将 创建 三 向 表 ， 以 便 研究 频率 ， 然 后 把 频率 绘制 成 马赛 克 图 。 生 成 表 的 代码 如 下 : 


# 表 20-2 
xtab2 = table(clinic,death,anc) 
xtab2 # 生 成 下 边 的 表 


K 20-2: 患者 的 治疗 频率 、 死 亡 率 和 所 在 诊所 
，anc = old 
death 
clinic no yes 
A 176 12 


B 197 34 


» anc = new 
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death 
clinic no yes 

A 293 16 

B 23 4 


运行 下 面 的 代码 ， 可 以 生成 图 20-2: 
# 图 20-2 


xtab2 = table(clinic,death,anc) 
mosaic(xtab2) 





clinic 
anc 














图 20-2: clinic (所 在 诊所 )、death 和 anc 的 马赛 克 图 


我 们 从 图 20-2 中 可 以 找 出 一 些 十 分 有 趣 的 关系 。 首 先 ， 图 被 分 成 了 两 部 分 ， 包 括 代表 A 
诊所 的 上 部 和 代表 B 诊所 的 下 部 。 请 单独 查看 每 个 部 分 。 我 们 在 双向 表 CULE 20-1) 中 看 
到 的 疗法 和 死亡 之 间 的 关系 仍然 存在 于 A 诊所 ， 而 不 存在 于 B 诊所 。 总 体 考查 整 张 表 ，B 
诊所 的 死亡 率 比 A 诊所 高 很 多 ， 这 是 相当 惊人 的 。 值 得 注意 的 是 ， 在 A 诊所 有 更 多 的 女 








性 接受 新 式 疗法 ， 而 在 B 诊所 患者 接受 的 都 是 旧式 疗法 。 











这 张 图 有 几 种 修改 方法 ， 以 突出 某 些 关系 。 例 如 ， 假 设 我 们 想 强 调 两 家 诊所 疗法 的 分 布 有 
很 大 差异 。 我 们 可 以 给 mosaic() 命令 再 增加 一 个 参数 。 代 码 如 下 : 





# 图 20-3 
# 强调 两 家 诊所 不 同 疗法 频率 (anc) 的 分 布 差异 
mosaic(xtab2, highlighting = "anc") 

















结果 如 图 20-3 所 示 。 








旧式 疗法 





新 式 疗法 


clinic 
anc 


旧式 疗法 








新 式 疗法 














图 20-3: clinic, death, anc 的 马赛 克 图 ， 突 出 了 anc 





我 们 还 可 以 突出 响应 变量 (response variable)。 换 名 话说 ， 这 个 变量 是 其 他 变量 条 件 下 的 
结果 。 在 这 里 ， 响 应 变量 是 death。 我 们 也 可 以 添加 颜色 向 量 ， 使 图 更 有 趣 (你 可 能 会 发 
现 ， 当 块 的 颜色 能 形成 鲜明 对 比 时 ， 这 些 关 系 更 突出 )， 代 码 如 下 ; 
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# 图 20-4 
mosaic(table(clinic,anc,death), 
highlighting = "death", 
highlighting_fill = c("royal blue", "gold")) 


结果 如 图 20-4 所 示 。 





anc 
旧式 疗法 新 式 疗 法 


| i 


@ 20-4; clinic, death, anc 的 马赛 克 图 ， 此 处 突出 death 并 添加 了 颜色 


存活 


clinic 
death 






存活 死亡 


死亡 




















有 时 改变 表 的 方向 可 以 突出 或 隐藏 某 些 关联 。 你 可 以 尝试 突 出 不 同 变量 ， 看 看 对 结果 的 解 
释 难 度 有 何 影响 : 

# 图 20-5 

mosaic(table(death,anc,clinic), 


highlighting = "clinic", 
highlighting_fill = c("royal blue", "gold")) 


结果 如 图 20-5 所 示 。 








anc 
旧式 疗法 新 式 疗 法 


a. 


a 





death 
clinic 


ya 
ie 
1 1 








20-5; clinic, death, anc 的 马赛 克 图 ， 突 出 clinic 并 添加 了 颜色 





解释 马赛 克 图 的 另 一 种 方法 是 残 差分 析 (residual analysis) 。 如 果 表 中 的 变量 间 没 有 关联 ， 
也 就 是 说 如 有 果 变 量 是 独立 的 ， 我 们 可 能 会 期 望 单元 格 是 一 定数 量 的 。 表 中 实际 频率 和 预期 
值 之 间 的 差异 被 称 为 残 差 (residual)。 下 面 显 示 了 为 双向 表 计 算 期 望 值 的 过 程 。 











K 20-3: 来 自 表 20-1 的 实际 值 、 计 算 总 数 、 期 望 值 和 残 差 








anc 

death oLd new Totals 
no 373 316 689 = 91.3% of 755 
yes 46 20 66 = 8.7% of 755 


Expected values 


old new 
no 382.5 (91.3% of 419) 306.6 (91.3% of 336) 
yes 36.5 (8.7% of 419) 29.4 (8.7% of 336) 
Residuals 
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old new 
no 373 - 382.5 = -9.5 316 - 306.6 = 9.4 
yes 46 - 36.5 = 9.5 20 - 29.4 = -9.4 


三 向 表 也 没有 什么 特殊 的 地 方 ， 但 这 里 我 们 不 做 计算 ， 因 为 计算 有 些 坏 手 ， 而 且 就 我 们 的 
目的 而 言 ， 也 没有 计算 的 必要 。 马 赛 克 图 可 以 使 用 残 差 信息 ， 展 示 实 际 频率 和 (在 独立 候 
设 下 的 ) 预期 频率 之 间 的 差异 。 要 得 到 残 差 图 ， 为 nosatc() 命令 添加 参数 shade=TRUE 即 
可 。 要 解释 图 形 上 各 种 颜色 和 阴影 的 含义 ， 则 应 当 添加 参数 legend=TRUE， 代 码 如 下 : 








# 图 20-6 

mosaic(xtab2, shade = TRUE, legend = TRUE) 
结果 如 图 20-6 所 示 。 蓝 色 块 代表 具有 较 大 正 残 差 的 单元 ， 而 红色 块 代表 具有 较 大 负 残 差 的 
单元 。 灰 色 块 所 代表 的 单元 接近 预期 值 。 如 果 把 A 诊所 中 的 四 块 和 B 诊所 中 相应 的 块 比较 
一 下 ， 你 会 看 到 两 家 诊所 之 间 的 明显 差异 。 








death 
存活 


皮尔 森 残 差 值 
6.4 


旧式 疗法 


clinic 
anc 








旧式 疗法 


-8.0 
p-value = 
< 2.22e-16 














图 20-6: 图 20-3 中 结果 的 残 差 阴影 (ANKH) 





练习 20-1 

众所周知 的 泰坦 尼克 号 沉船 事件 一 直 是 很 多 研究 的 主题 。 基 础 R 安装 自 带 一 个 关于 生存 者 
和 死亡 者 的 特征 的 数据 集 ， 就 称 为 Titanic。 请 使 用 马赛 克 图 技术 ， 确 定 哪 些 因 素 和 生存 
相关 。 完 成 这 项 任务 之 后 ， 请 上 网 搜索 ， 寻 找 至 少 两 个 使 用 同一 个 数据 集 的 其 他 分 析 ， 将 
你 的 分 析 与 之 进行 比较 。 这 类 研究 应 该 不 难 找到 。 
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第 五 部 分 





现在 该 做 些 什么 





我 们 已 经 谈 到 了 很 多 方面 ， 但 如 果 需 要 研究 复杂 的 数据 ， 你 可 能 还 有 很 多 疑问 尚未 得 到 解 


答 。 幸 运 的 是 ， 本 书 并 不 是 学 习 图 形 和 及 的 终点 。 本 书 已 帮 你 做 好 准 
习 更 高 级 的 资料 ， 比 如 这 一 部 分 所 介绍 的 资源 。 




















， 让 你 能 够 继续 学 


p21% 
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艺术 永 无 止境 ， 除 非 放 弃 。 


一 一 列 奥 纳 多 . 达 . 芬 奇 








关于 R 语言 和 图 形 的 学 习 是 永 无 止境 的 。 本 书 谈 不 上 面面俱到 ， 但 熟练 掌握 了 本 书 内 容 
的 读者 将 来 可 以 继续 撰写 这 方面 的 著作 。 很 多 人 设计 出 了 实用 的 数据 可 视 化 方法 ， 还 有 
很 多 人 为 R 贡献 了 自己 的 图 形 化 方法 实现 ， 这 一 切 令 我 十 分 惊叹 。 要 想 透 彻 介绍 这 些 方 
法 需要 很 多 很 多 年 ， 我 的 余生 远 远 不 够 。 当 前 可 用 的 方法 还 没有 介绍 完 ， 新 的 方法 就 又 
涌现 了 出 来 。 这 样 的 任务 我 心 有 余 而 力 不 足 ， 因 此 ， 对 图 形 化 和 R 之 真 诺 的 进一步 探索 
就 交 给 你 们 了 。 


读 了 这 本 书后 ， 你 现在 具备 了 使 用 R 绘制 图 形 并 展示 数据 的 基础 知识 。 你 学 到 的 新 技能 
很 多 用 途 ， 并 且 毫 无 疑问 ， 这 些 技能 是 你 用 得 上 的 。 当 然 ， 你 也 可 能 遇 到 以 目前 水 平 难以 
解决 的 问题 。 我 希望 本 书 能 成 为 你 的 参考 手册 ， 帮 助 你 解决 许多 问题 ， 但 如 果 想 进一步 学 
习 ， 也 有 很 多 优秀 的 自学 材料 。 下 面 列 出 的 是 我 认为 十 分 实用 且 便 于 理解 的 材料 ， 在 此 推 
荐 给 你 。 完 整 的 参考 资料 见 附录 A. 

























































































21.1 REA 


CRAN (Comprehensive R Archive Network) 是 R MH (R Project) 的 一 部 分 。CRAN 任务 
视图 (Task Views) 概括 了 R 包 ， 并 按照 类 别 进 行 了 整理 ， 访 问 地 址 为 http://cran.r-project. 
org/web/views/。 单 击 “ 图 ”(Graphics)， 你 会 看 到 对 图 形 包 的 一 般 性 讨论 ， 讨 论 提 及 了 
一 些 具体 的 包 及 其 优势 ， 还 包括 了 许多 图 形 包 文 档 的 链接 。 有 些 包 可 能 有 一 些 图 形 特 
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性 ， 但 本 质 上 不 算 图 形 包 ， 这 里 并 没有 提供 这 些 包 的 信息 。 如 果 对 这 种 包 感 兴趣 ， 你 可 
以 看 一 看 对 应 的 类 别 。 比 如 ， 如 果 你 对 存活 曲线 (survival curve) 感 兴 趣 ， 那 就 看 看 生存 
(Survival) 类 ， 如 果 你 对 绘制 时 间 序 列 数 据 感 兴趣 ， 那 就 看 看 TimeSeries 类 ;如 果 你 对 地 
理 感 兴趣 ， 那 就 看 看 SpacioTemporal 类 。 












































如 果 你 想 钻研 lattice 包 ， 此 包 的 编写 者 Sarkar (2008) 的 书 非常 值得 一 读 。ggplot2 包 
的 编写 者 Wickham (2009) 也 写 了 一 本 易 读 的 好 书 。Chang (2013) 撰写 了 一 本 实用 手 
册 ， 介 绍 了 很 多 在 R 中 制图 的 方法 ， 大 多 采用 goplot2 包 。 如 果 你 对 R 的 基本 知识 和 各 
种 类 型 的 图 有 所 了 解 ， 那 么 这 本 书 特别 合适 你 ， 当 然 ， 你 现在 已 经 具备 了 这 样 的 基础 。 


21.2 通用 绘图 原则 


Tufte (1983) 可 能 是 在 数据 图 形 化 方面 被 引用 最 多 的 书 之 一 ， 其 中 收录 了 很 多 图 形 ， 归 纳 
出 了 有 效 展示 的 诸多 原则 。 书 中 还 展示 了 许多 正面 的 和 反面 的 例子 ， 你 可 以 从 中 了 人 解 什么 
是 好 图 形 的 特点 。 


Cleveland (1985, 1993) 的 两 本 书 逻 辑 严 密 ， 思 维 清晰 ， 可 以 说 是 两 本 杰作 ,但 要 想 完全 
理解 ， 需 要 具备 一 点 数学 知识 。 大 多 数 读者 即使 没有 高 等 数学 背景 ， 也 可 以 借助 这 本 书 更 
好 地 掌握 绘图 原则 。 相 比 现 有 的 彩色 展示 ， 书 中 的 图 看 起 来 有 点 平淡 无 奇 ， 但 Cleveland 
在 图 形 设 计 方 面 超越 了 大 多 数 人 。 许 多 lattice 包 都 源 自 这 两 本 书 。 


21.3 ”学习 更 多 关于 R 的 知识 

现在 ，R 越 来 越 受 欢 迎 ， 市 面 上 有 大 量 关 于 R 的 图 书 。 我 说 不 出 哪 本 最 好 ， 但 我 最 喜欢 的 
通用 的 R 数据 分 析 来 自 Kabacoff 〈2011)。 这 本 书 刚刚 出 版 经 过 扩展 的 第 二 版 ， 我 还 没有 
拜读 。 要 充分 利用 这 本 书 ， 你 应 该 了 解 基本 的 统计 学 知识 。 


























































































































如 果 想 多 了 解 R 这 门 编程 语言 ， 请 看 看 Matloff (2011) 。 现 在 ， 你 或 许 已 经 学 习 了 大 部 分 
你 想 了 解 的 关于 R 制图 的 内 容 ， 但 是 在 数据 处 理 、 模 拟 、 文 本 字符 串 方面 仍 有 很 多 疑问 ， 
还 有 一 些 问 题 是 你 暂时 没有 想到 的 。 对 于 这 些 ，Matloff 都 有 所 研究 。 


21.4 用 R 做 统计 


如 果 你 在 阅读 本 书 之 前 没有 任何 统计 学 背景 ， 你 也 许 想 了 解 一 下 这 个 领域 。 统 计 结 合 R 的 
基础 教材 有 几 本 ， 我 推荐 Diez 等 人 (2012) 的 著作 。 为 遵循 R 的 开源 理念 ， 这 本 书 是 免 
费 的 ， 可 以 在 www.openintro.org 下 载 。 纸 质 版 在 亚马逊 网 站 上 有 售 ， 价 格 低廉 。 书 中 使 用 
的 数据 集 在 openintro 包 中 。 


我 相信 阅读 本 书 是 利用 本 章 所 讨论 的 大 部 分 资源 的 前 提 ， 这 也 是 我 写作 这 本 书 的 原因 之 
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一 。 我 希望 这 本 书 里 的 R 作 图 知识 能 够 对 你 有 所 帮助 。 











下 面 进 行 一 项 实战 测试 ， 看 看 你 掌握 了 多 少 R 技能 。 请 重新 生成 图 1-3。 
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附录 B 


R 的 颜色 





使 用 如 下 命令 ， 可 以 显示 657 种 命名 的 R 颜色 ; 


> demo(colors) 


使 用 如 下 命令 ， 可 以 获取 颜色 名 称 列表 : 


> colors() 




















下 面 的 脚本 能 够 生成 图 B-1 中 的 颜色 表 〈 如 果 你 想 打印 自己 的 副本 ， 可 以 直接 复制 代码 ) : 


7 




















# 生成 颜色 表 的 脚本 
par(col.axis="white",col.lab="white", mar=c(0.1,0.1,0.4,0.1), 
xaxt="n",yaxt="n") 


n = c(0:656) # 每 种 颜色 的 编号 

n2 = (n %%73) # 每 一 列 颜 色 有 1~73 个 编号 
cc = t(colors()) # 颜色 名 称 

k = (2:9) # 每 一 列 的 编号 
x=rep(c(1),times=73) 


for(i in k) { 

r = rep(c(i),times=73) 
x = (c(x,r)) 

} 


# 在 (x,n2) 处 打印 颜色 矩形 
plot(x,n2,col=cc,pch=15, 
xlim=c(0,10), 
ylim=c(0,73), 

bty="n", 
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main="Named colors available in R",cex.main=.65) 


# 在 (x1,n2) 处 打印 颜色 名 向 量 


text(x1,n2,cc,cex=.4) 
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1) 
LAS Tian Zheng 教授 制作 的 精美 R 颜色 表 ， 网 址 是 http://www. 


ó 
stat.columbia.edu/~tzheng/files/Rcolor.pdf, 


657 种 已 命名 的 颜色 (AN 


B-1; 
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你 可 以 从 网 上 找到 





附录 C 


R Commander 图 形 用 户 界 面 





有 些 人 就 是 不 喜欢 R 的 命令 行 界 面 ， 他 们 更 愿意 在 图 形 用 户 界面 (GUI， 又 名 点 击 式 界 
面 ) 环境 下 工作 。 不 常 使 用 R 的 人 很 难 熟 记 R 的 命令 ， 要 么 总 是 输入 错误 ， 要 么 连 绘制 简 
单 的 图 形 也 缓慢 得 令 人 痛苦 。 使 用 R Commander 可 以 使 你 的 生活 更 轻松 ， 但 需要 说 明 的 
是 ， 使 用 点 击 式 界 面 时 不 能 使 用 所 有 的 R 功能 。 


想 尝试 使 用 R Commander， 首 先 必须 使 用 下 面 的 命令 安装 它 : 

















> install.packages("Rcmdr", dependencies=TRUE) 


安装 一 次 即 可 ,但 在 使 用 它 的 每 一 个 会 话 中 ， 你 都 必须 加 载 它 。 加 载 命令 如 下 : 





> library(Rcmdr) 


图 C-1 所 示 为 R Commander 的 窗口 。 你 会 发 现 ， 使 用 R Commander 可 以 更 快 地 生成 常规 
图 / 表 / 分 析 ， 但 无 法 生成 一 些 高 度 定 制 的 图 形 。 如 果 想 同时 使 用 图 形 用 户 界面 和 命令 行 
界面 ， 你 可 以 让 控制 台 保 持 打 开 状 态 ， 然 后 在 两 个 窗口 之 间 来 回 切换 。 或 者 ， 你 可 以 在 
R ene “R 脚本 ”(R Script) 窗口 输入 一 条 命令 并 选中 : 单 击 命令 所 在 行 的 开 

， 拖 动 到 该 行 的 末端 ， 并 释放 鼠标 按钮 即 可 。 这 时 选中 的 行 会 高 亮 显 示 。 单 击 “ 提 交 ” 
(aii 按钮 ，R 将 执行 该 命令 。 
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000 IX! R Commander 
File Edit Data Statistics Graphs Models Distributions Tools Help 











@ Data set: <No active dataset> | | / Edit data set | (@ View dataset | Model: x <No active model> 








R Script R Markdown 








m ) 


i 四 





Output ‘Wy Submit 





ic 








CC p _ 本 _ Wap a >j 


Messages 





[1] NOTE: R Commander Version 2.1-2: Fri Jan 16 17:51:17 2015 














mI b 


al | 








图 C-1: R Commander 的 图 形 用 户 界面 


请 尝试 使 用 R Commander 解决 第 3 章 中 的 带 状 图 问题 。 在 屏幕 顶部 的 菜单 栏 上 ， 单 击 “ 数 
据 ”(Data) 。 在 打开 的 菜单 中 ， 选 择 “ 包 中 的 数据 ”(Data in packages) 和 “从 附加 包 读 取 
数据 ”(Read dataset from an attached package)。 图 C-2 所 示 为 打开 的 窗口 ， 在 其 中 可 以 选 
择 trees 数据 集 。 然 后 点 击 “ 确 定 ”(OK)。 
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000 IX] R Commander 
File Edit Data Statistics Graphs Models Distributions Tools Help 
































Enter name of data set: 





| Help on selected data set 








| 
% Cancel || of OK | 








ee IX] Read Data From Package jta set Model: £z <No active model> 
Package (Double-click to select) 
car iaj a 
datasets 
sandwich 国 
OR 





| 


w Submit 











Ei 








Messages 


[1] NOTE: R Commander Version 2.1-2: Fri Jan 16 17:51:17 2015 









la] 














图 C-2: 4 R Commander 中 选择 一 个 数据 集 以 便 用 R 分 析 
在 菜单 栏 下 面 ， 你 会 看 到 trees 是 当前 活跃 的 数据 集 。 接 下 来 ， 从 











图 形 (Graphs) 窗口 选 


择 “ 带 状 图 ”(strip chart) 。 将 你 的 结果 与 第 3 章 中 的 第 一 张 图 进行 比较 。 然 后 ， 尝 试 重 





现 展示 了 跳动 (jittering) 的 第 二 张 图 。[ 提示 : 在 打开 带 状 图 窗口 
(options)。] 只 使 用 图 形 用 户 界 面 ， 你 将 无 法 重 现 该 章 中 其 他 的 图 。 












































之 后 ， 请 单 击 “ 选 项 ” 
如 果 想 生成 第 三 张 图 ， 





你 可 以 在 R 脚本 窗口 中 提交 命令 行 。 最 简单 的 方法 是 编辑 生成 之 前 那 张 图 的 命令 行 ， 添加 





参数 pch = 20 并 编辑 参数 xlab ( 见 图 C-3) 即 可 。 最 后 你 只 需要 选 
击 “ 提 交 ”。 





中 编辑 完成 的 命令 ， 点 








RCommander 图 形 用 户 界面 | 197 








e090 IX] R Commander 
File Edit Data Statistics Graphs Models Distributions Tools Help 








®Q Data set: trees | | A Edit data set | [iQ View data set Model: z <No active model> 








R Script TR Markdown | 





data(trees, package=" datasets" ) 
stripchart(trees$VoLume, method="jitter", xlab="Volume in cubic feet") 


| 


> data(trees, package=" datasets") 





> stripchart(trees¢Volume, method="jitter", xlab="Volume in cubic feet") 


Messages 


[1] NOTE: R Commander Version 2.1-2: Fri Jan 16 17:51:17 2015 
[2] NOTE: The dataset trees has 31 rows and 3 columns. 








alk 











C-3: 使 用 R 脚本 窗口 把 命令 行 提交 给 R 


如 果 你 喜欢 R Commander， 可 以 试 着 使 用 GUI 重复 实现 本 书 中 其 他 的 例子 。 在 很 多 情况 
下 ， 如 果 你 知道 图 应 该 是 什么 样子 ， 就 不 难 想 出 绘制 办 法 。 如 果 要 绘制 较 复 杂 的 图 ， 那 么 
你 需要 输入 命令 。 






































R Commander 可 以 扩展 ( 即 添 加 更 多 命令 )， 你 可 以 通过 使 用 插件 (plug-in) 来 实现 。 在 我 
写作 本 书 的 时 候 ， 采 用 安装 包 的 方式 就 可 以 安装 36 个 可 用 的 插件 ， 它 们 大 多 数 会 添加 很 多 
新 的 命令 。 你 也 可 以 编写 你 自己 的 插件 。 想 获得 信息 ， 请 点 击 菜单 栏 上 的 “帮助 "， 或 者 查 
看 R Commander 网 页 (http:/www.rcommander.com)， 或 者 访问 作者 的 网 页 (http://socserv. 
mcmaster.ca/jfox/Misc/Remdr/)。 你 还 可 以 访问 R 包 的 完整 列表 (http://cran.r-project.org/web/ 
packages/available_packages_by_name.html) ， 并 向 下 滚动 到 以 RemdrPlugin 开始 的 条 目 。 

















很 多 揪 件 有 一 个 或 多 个 图 形 国 数 。 你 可 以 安装 RemdrPlugin.HH， 查 看 插件 是 如 何 工作 的 。 
HH 包含 有 许多 实用 的 图 形 函 数 ，R Commander 可 以 通过 插件 使 用 这 些 国 数 。 首 先 ， 你 需 
要 安装 包 ， 代 码 如 下 : 
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> install.packages("RcmdrPlugin.HH", dependencies=TRUE) 


接 下 来 打开 R Commander， 代 码 如 下 : 


> library(Rcmdr) 








打开 R Commander 的 屏幕 后 ， 你 可 以 在 菜单 栏 点 击 “ 图 形 ”(Graphs)， 看 看 没有 插件 时 
有 多 少 选项 。 点 击 菜单 栏 的 “工具 ”选项 ， 并 选择 “加 载 Remdr 插件 ”(Load Remdr plug- 
ins) 即 可 加 载 插 件 。 你 需要 在 随后 出 现 的 菜单 上 选择 插件 的 名 称 。 现 在 , 再 看 一 下 “图 形 ” 
选项 ， 你 会 注意 到 选项 比 之 前 更 多 了 。 增 加 的 选项 都 在 菜单 的 下 半 部 分 ， 其 中 一 些 确实 很 
实用 。 例 如 ，Scatterplot.HH 插件 提供 了 更 大 的 输出 控制 (你 可 以 借 此 控制 图 符 的 类 型 和 大 
小 )， 提 供 了 可 以 放置 在 图 形 上 的 几 种 线 ， 你 甚至 可 以 通过 点 击 识别 一 个 点 的 功能 。 




































































其 他 几 个 插件 也 包括 了 良好 的 图 形 函 数 。 与 RemdrPlugin.HH 不 同 ， 一 些 插件 会 在 菜单 
栏 中 添加 新 的 菜单 。 添 加 有 趣 图 形 的 插件 ， 包 括 RemdrPlugin.KMggplot2、RcemdrPlugin. 
NMBU、RcmdrPlugin.EZR 等 。 
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附录 DD 





使 用 /引用 的 包 




















包 作者 描述 
Amelia James Honaker 处 理 缺 失 数据 的 程序 
Gary King 
Matthew Blackwell 
apLpack Hans Peter Wolf Uni Bielefeld ” 另 一 个 绘图 包 (Another Plot PACKage) : 添加 了 stem.eaf()、 
bagplot(), faces(), spin3R(), plotsummary(), plothulls() 
和 一 些 请 块 函 数 
car John Fox 应 用 回归 伴侣 (Companion to Applied Regression) 
Sanford Weisberg 
corrplot Taiyun Wei 相关 秆 阵 的 可 视 化 
DescTools Andri Signorell 描述 性 统计 工具 
以 及 其 他 贡献 者 
epade Andreas Schulz 简单 图 表 (Easy Plots) 
epicalc Virasakdi Chongsuvivatwong ”流行 病 学 计算 器 
foreign R Core Team 读 取 Minitab, S, SAS, SPSS, Stata, Systat, Weka, dBase 
等 存储 的 数据 
GGally Barret Schloerke ggplot2 的 扩展 
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Jason Crowley 
Di Cook 

Heike Hofmann 
Hadley Wickham 
Francois Briatte 
Moritz Marbach 
Edwin Thoen 


包 


作者 


描述 





ggpLot2 


gmodels 


gpairs 


gplots 


grid 


hexbin 


HistData 


Hmisc 


lattice 


LatticeExtra 


multcomp 


ncdf 


nLme 


Hadley Wickham 
Winston Chang 


Gregory R. Warnes 
以 及 其 他 贡献 者 
John W. Emerson 
Walton A. Green 


Gregory R. Warnes 
Ben Bolker 


Lodewijk Bonebakker 


Robert Gentleman 
Wolfgang Huber 
Andy Liaw 
Thomas Lumley 
Martin Maechler 
Arni Magnusson 
Steffen Moeller 
Marc Schwartz 
Bill Venables 
Paul Murrell 


Dan Carr 

以 及 其 他 贡献 者 
Michael Friendly 
Stephane Dray 
Hadley Wickham 
James Hanley 
Dennis Murphy 
Frank E. Harrell Jr. 
以 及 其 他 贡献 者 
Deepayan Sarkar 
Deepayan Sarkar 
Felix Andrews 


Torston Hothorn 
Frank Bretz 
Peter Westfall 

以 及 其 他 贡献 者 


David Pierce 
Jose Pinheiro 


Douglas Bates 
以 及 其 他 贡献 者 





y 
ar 
i 





图 表 语法 的 实现 





用 于 模型 拟 合 的 各 种 R 编程 工具 











用 于 生成 广义 的 pairs (gpairs) 图 














用 于 数据 绘图 的 各 种 R 编程 工具 





网 格 图 形 包 
六 边 形 分 组 程序 








来 自 统计 和 数据 可 视 化 历史 的 数据 集 


Harrell 杂项 (Harrell Miscellaneous) 


点 阵 图 
基于 点 阵 图 的 附加 的 图 形 化 实用 工具 












































广义 参数 模型 中 的 联 立 推断 




















Unidata netCDF 数据 文件 的 界 本 
线性 和 非 线 性 混合 效果 模型 
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包 作者 描述 
plotrix Jim Lemon, Ben Bolker, Sander Oom, Eduardo 各 种 绘图 函数 
Klein, Barry Rowlingson, Hadley Wickham, 
Anupam Tyagi, Olivier Eterradossi, Gabor 
Grothendieck, Michael Toews, John Kane, Rolf 
Turner, Carl Witthoft, Julian Stander, Thomas 
Petzoldt, Remko Duursma, Elisa Biancotto, 
Ofir Levy, Christophe Dutang, Peter Solymos, 
Robby Engelmann, Michael Hecker, Felix 
Steinbeck, Hans Borchers, Henrik Singmann, 
Ted Toal, Derek Ogle 
psych William Revelle 心理 学 、 心 理 测 量 学 和 性 格 研究 的 过 程 
Quandt Raymond McTaggart Gergely Daroczi Quandl 数据 连接 
Rcmdr John Fox 基于 tcttk 包 且 独立 于 平台 的 R 基础 统 
Milan Bouchet-Valat tt GUI 
以 及 其 他 贡献 者 
RemdrMisc John Fox R Commander 杂项 国 数 
以 及 其 他 贡献 者 
RcmdrPlu Yoshinobu Kanda EZR (Easy R) 包 的 R Commander 插件 
gin. EZR 


RcmdrPlugin.HH 


RcmdrPlu 


gin.KMggplot2! 


2 


RcmdrPlu 
gin .NMBU? 


ResearchMe- 





thods 


rgl 


scatterplot3d 


RCurl 


Sleuth2 


Richard M. Heiberger 
Contributions from Burt Holland 
Triad sou 

Kengo Nagashima 
Kristian Hovde Liland 
Solve Sæbø 
Mohamed Abdolell 
Sam Stewart 

Hadley Wickham 
Daniel Adler 

Duncan Murdoch 

以 及 其 他 贡献 者 
Uwe Ligges 

Martin Maechler 
Sarah Schnackenberg 


Duncan Temple Lang 


F. L. Ramsey 
D. W. Schafer 
以 及 其 他 贡献 者 





支持 HH 包 的 Remdr 

















Kaplan-Meier 图 的 Remdr 插件 和 使 用 
ggplot2 包 绘 制 的 其 他 图 
NMBU 统计 的 R Commander 插件 


























使 用 GUI 给 非 统 计 专业 的 学 生 讲授 统 
计 学 
灵活 改变 数据 形状 : reshape 包 的 reboot 
使 用 OpenGL 的 三 维 可 视 化 




















三 维 散 点 图 











R 的 通用 网 络 (HTTP/FTP/……) 客户 
vim FY É 
KÁ Ramsey 和 Schafer 的 数据 集 (2001) 























注 1: 参见 https://cran.r-project.org/web/packages/RcemdrPlugin.K Mggplot2/index.html, 
注 2: 参见 https://cran.r-project.org/web/packages/RemdrPlugin.NMBU/index.html, 
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(2%) 











包 作者 描述 
sm Adrian Bowman 非 参数 回归 和 密度 估计 的 平滑 方法 
Adelchi Azzalini 
vcd David Meyer 分 类 数据 可 视 化 
Achim Zeileis 
Kurt Hornik 
以 及 其 他 贡献 者 
XLConnect Mirai Solutions GmbH R 的 Excel 连接 器 


Martin Studer 
以 及 其 他 贡献 者 
XML Duncan Temple Lang 读 取 和 创建 XML (和 HTML) 文件 
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附录 E 


从 R 的 外 部 导入 数据 





E.1 一 些 有 帮助 的 网 络 数 据 仓库 

你 可 以 从 很 多 网 站 中 下 载 数据 集 ， 并 用 R 进行 数据 分 析 。 下 文 以 列表 的 形式 呈现 了 一 些 
资源 ， 其 中 列 出 的 只 是 诸多 共享 数据 的 一 小 部 分 。 在 很 多 情况 下 ， 要 使 用 数据 集 ， 你 需要 
注册 并 同意 使 用 条 款 。 在 获取 数据 之 前 ， 你 应 当 仔 细 阅 读 供 应 商 的 要 求 。 下 面 这 些 资 源 的 
数据 集 经 常 以 Excel 或 CSV 格式 提供 ， 这 一 点 已 经 在 1.8.3 节 中 讨论 过 。 其 他 格式 的 例子 
如 下 。 

















开放 访问 目录 (Open Access Directory, http://oad.simmons.edu/oadwiki/Main_Page) 
该 网 站 提供 可 下 载 的 数据 的 链接 ， 数 据 关乎 各 种 主题 ， 科 研 数据 居多 。 许 多 数据 集 是 免 
费 的 ， 有 些 必 须 购 买 。 向 下 滚动 内 容 目 录 到 “数据 仓库 "， 可 以 查看 所 涵盖 的 主题 。 





FedStats (http://fedstats.sites.usa.gov/) 
这 是 美国 联邦 政府 的 数据 库 ， 包 含 各 种 免费 开放 的 数据 。 此 网 页 上 有 各 政府 机 构 共 享 数 
据 的 链接 。 





DATA.GOV (http://catalog.data.gov/dataset) 
这 是 另 一 个 联邦 数据 仓库 。 
Quand! (http://www.quandl.com) 


这 是 一 个 拥有 1000 万 余 个 数据 集 的 仓库 ， 可 以 提供 多 种 格式 的 免费 下 载 ， 包括 R 数据 
框 。 相 比 许多 其 他 来 源 ，Quandl 更 加 易于 操作 。 安 装 并 加 载 Quand! 包 的 代码 如 下 : 
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> install.packages("Quandl") 

> Llibrary(Quandl) 
你 可 以 浏览 Quand! 网 页 ， 找 到 想 要 的 文件 。 例 如 ， 假 设 你 在 http://www.quandl.com/ 
FBI_UCR/ USCRIME_STATE_PENNSYLVANIA 这 个 网 页 上 选中 了 美国 联邦 调查 局 宾 
夕 法 尼 亚 州 的 “ 州 犯罪 ”(Crimes by State) 文件 ， 你 可 以 用 一 条 命令 把 它 加 载 到 R 数据 
HE penn.crime， 代 码 如 下 : 














> penn.crime = Quandl("FBI_UCR/USCRIME_STATE_PENNSYLVANIA") 


E.2 把 各 种 类 型 的 数据 导入 R 


R 可 以 读 取 很 多 不 同 格式 的 数据 。 本 市 将 讨论 如 何 导入 一 些 最 重要 格式 的 数据 。 





E.2.1 CSV 
我 们 的 第 一 个 例子 是 一 个 来 自 美国 国家 科学 基金 会 的 简单 的 CSV 文件。 注意 ， 它 似乎 和 
1.8.3 节 中 的 例子 非常 像 。 但 该 文件 不 在 你 计算 机 的 工作 目录 中 ， 所 以 你 必须 在 引号 内 包括 
整个 URL， 表 明 它 来 自 哪个 网 页 ， 代 码 如 下 所 示 : 














> nsf2011 = read.csv( 
"http: //www.nsf.gov/statistics/ffrdc/data/exp2011.csv", 
header=TRUE) 


E.2.2 ”统计 软件 包 (SPSS, SASH) 


在 宗教 协会 数据 档案 (Association of Religion Data Archives, ARDA, http://www.thearda. 
com) 中 ， 我 发 现 了 一 个 有 趣 的 数据 集 。 读 完 ARDA 之 后 ， 在 页 面 顶部 的 菜单 栏 上 点 击 
“归档 数据 ”(Data Archive) 即 可 查看 可 获得 哪些 数据 集 。 这 里 的 数据 集 有 很 多 种 不 同 的 格 
式 。 例 如 ， 从 http://www.thearda.com/Archive/Files/Downloads/CEMFILE_DL.asp 可 以 下 载 
由 Wilbur Zelinsky 搜集 的 “ 莫 碑 索引 ”(The Gravestone Index)， 有 三 种 版 本 可 选 。 其 中 ， 
SPSS 和 STATA 两 种 格式 分 别 为 两 种 有 竞争 关系 的 统计 软件 包 设 计 。 一 个 名 为 foreign 的 
R 包 可 以 将 这 些 格 式 转换 为 R 的 数据 框 。 安 装 和 加 载 包 的 代码 如 下 : 








i 



































> install.packages("foreign", dependencies=TRUE) 
> library(foreign) 


下 载 SPSS 文件 到 工作 目录 以 后 ， 通 过 使 用 如 下 命令 ， 可 以 将 其 读 取 到 以 stone 命名 的 R 
数据 框 : 


> stone=read.spss("The Gravestone Index.SAV",to.data. frame=TRUE) 
> fix(stone) # 看 编辑 器 中 的 数据 
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foreign 包 也 可 读 写 其 他 数据 格式 ， 比 如 Minitab, SAS, Octave 和 Systat。 想 进一步 了 解 
foreign 包 ， 你 可 以 采用 如 下 命令 : 





> library(help=foreign) 


E.2.3 ASCII 
募 碑 文件 (Gravestone file) 也 有 固定 宽度 格式 (fixed-width format) 的 ASCH 文件 。 其 数 
































据 落 在 每 一 行 的 固定 位 置 上 ， 在 数据 点 之 间 没 有 空格 或 其 他 分 隔 符 。 前 儿 行 和 最 后 几 行 的 





内 容 如 下 : 


11862 
11868 
11875 
11910 
11885 
11861 
11864 


52003 
52003 
52007 
52003 
51990 


œ œ co oo wo ao 


18 
18 
18 
18 
18 


1182000000000000000000000000000000000 
1182000000000010000000000000000000000 
1182000000000000000000000000000000000 
1182000000000000000000000000000000000 
1182000000000000000000000000000000000 
1182000000000010000000000000000000000 
1182000000000010000000000000000000000 


64120000 0 1 
64120000 0 1 
64120000 0 0 
64120000 0 0 
64120000 0 0 


eooooo 
oo o0 0 
DD 


码 本 的 第 一 部 分 如 下 : 


1) BOOKNUM: 1 

2) YBIRTH: 2-5 
3) CEMNAME: 6-8 
4) YEAREST: 9-10 
5) CITYCEM: 11-12 
6) COUNTRY: 13 
7) COLLYEAR: 14 
8) GOTHICW: 15 
9) MARRIAG: 16 
10) HEART: 17 
11) HEARTSS: 18 
12) MILITAR: 19 
13) SECMESS: 20 
14) OCCUPAT: 21 


可 以 使 用 read. fwf() (GRH EI 











0000001 0 0000000000 0 
0000000 0 0000000000 0 
000000010 0010000000 0 
0000000 0 0000000000 0 
0000000 0 0000000000 0 


定 宽度 格式 ) 命令 读 取 数 据 。 注 意 ， 这 里 没有 头 标 信息 。 若 


包含 参数 header=TRUE， 则 R 将 受到 误导 ， 试 图 根据 第 一 行 的 数字 分 配 变量 名 。 这 可 能 会 


导致 错误 信息 。 参 数 widths 是 必须 包含 的 ， 后 
列 宽 ， 如 码 本 中 所 示 。 第 一 个 变量 BooKNUM 有 1 列 ， 


























看 需要 跟着 一 个 向 量 ， 给 出 每 一 个 变量 的 


第 二 个 变量 YBIRTH 有 4 列 (第 2~5 


列 ) ; 第 三 个 变量 CEMNAME 有 3 Fl] (第 6~8 列 ) ， 以 此 类 推 。 下 列 命令 读 取 已 经 复制 到 工作 
目录 的 ASCII 文件 : 
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gs = read.fwf("The Gravestone Index.DAT" widths = c(1,4,3,2,2,1, 
154 5271751,9517 517,151,141, 1;1751,4,1,1,1;57,1,1,1,1,.1,1,1;1,1, 2,1, 15 
14057411 4154)) 


或 者 ， 不 必 输 入 42 个 1， 你 可 以 使 用 rep() 函数 完成 相同 的 功能 ， 代 码 如 下 : 


> gs = read.fwf("The Gravestone Index.DAT", 
widths = c(1,4,3,2,2,rep(1,42))) 


相同 数据 的 SPSS 数据 文件 有 变量 名 ， 但 ASCI 文件 没有 名 字 ， 并 且 分 配给 变量 的 名 字 为 
V1、V2、V3 等 。 你 可 以 创建 一 个 新 向 量 ， 为 变量 赋予 来 自 码 本 的 真实 名 字 ， 代 码 如 下 : 











vars = c("BOOKNUM", "YBIRTH", "CEMNAME", "YEAREST", "CITYCEM", 
"COUNTRY", "COLLYEAR", "GOTHICW", "MARRIAG", "HEART", "HEARTSS", 
"MILITAR", "SECMESS", "OCCUPAT", "PICTORIA", "DECEAEL", 
"PHOTODEC", "RELMES", "SYMBOL", "ANGEL", "SYMBOOK", "SYMDEATH", 
"DOVE", "FISH", "FINGERS", "SYMDIVIN", "GATES", "HANDSIP", 
"THSE", "HANDS", "LAMB", "SYMCROSS", "STATUE", "STAANGEL", 
"STABOOK", "STADIVIN", "STALAMB", "STACROSS", "EFFIGY", 
"WEEPWIL", "SECULAR", "SYMCHURC", "HANDSCIP", "CROWN", 
"STADOVE", "PICCHURC", "STADEATH" ) 





后 可 以 在 向 量 vars 中 给 出 gs 变量 的 名 字 : 











> names(gs) = vars 


E.2.4 XML 


XML (Extensible Markup Language， 可 扩展 标记 语言 ) 是 一 种 文本 格式 ， 用 于 数据 交换 。 

数据 有 多 种 不 同 格式 ， 其 中 一 些 是 专 有 的 ， 甚 至 是 保密 的 ， 因 此 把 每 一 种 格式 都 转换 成 
其 他 所 有 格式 几乎 是 不 可 能 的 。XML 透明 而 开放 ， 是 在 不 同 计算 机 系统 和 应 用 间 共 享 数 
据 的 常用 方式 。R 有 一 个 XML 包 ，R 用 户 可 以 借 此 读 取 和 创建 XML 文件 。 在 网 页 http:/ 
www.omegahat.net/RSXML/ 上 可 以 找到 该 包 的 文档 。XML 文件 可 能 比 目 前 为 止 我 们 看 到 的 
平面 文件 复杂 得 多 。 在 将 XML 转换 为 R 数据 框 之 前 ， 通 常 需要 对 其 进 和 ee 以 了 
解 它 的 结构 。 de XML 文件 转换 为 数据 框 的 例子 。 这 是 联邦 选举 委 
员 会 2009 一 2010 候选 人 概要 文件 ， 详 见 http://catalog.data.gov/dataset/2009-2010-candidate- 


summary-file。 




















a3 

















安装 并 加 载 XML 包 之 后 ， 就 可 以 执行 转换 了 ， 代 码 如 下 : 





> install.packages("XML",dependencies=TRUE) 
> library(XML) 
> cand = xmlToDataFrame("CandidateSummaryAction.xml") 
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E.2.5 netCDF 


在 国家 冰雪 数据 中 心 (National Snow and Ice Data Center, http://nsidc.org) 的 数据 仓库 列表 
中 ， 你 可 以 找到 下 面 的 数据 集 。 我 选择 用 它 来 展示 另 一 种 数据 类 型 ， 即 netCDF (network 
Common Data Form， 网 络 公 共 数 据 格式 ) 文件 。 该 格式 因 存 储 大 量 的 科学 数据 (特别 是 
地 球 物理 数据 ) 阵列 而 广 为 使 用 。 和 XML 一 样 ， 此 格式 的 数据 集 比 较 复 杂 。 你 可 以 使 用 
FTP 从 https://gigclerk.com/seoclerks/122001/get-201-high-pr-awesome-backlinks-seo-links-to- 
any-website-blog-twitter-facebook-page-wikis-pinterest-youtube-videos-ins 下 载 数据 集 并 将 其 
保存 到 工作 目录 中 。 以 下 代码 可 以 安装 并 加 载 ncdf 包 ， 在 R 中 处 理 这 些 数据 ; 





























> install.packages("ncdf") 
> library(ncdf) 


这 个 数据 集 是 一 个 相当 复杂 的 对 象 列 表 ， 每 一 个 对 象 本 身 都 是 一 个 对 象 列表 。 按 netCDF 
的 说 法 ， 每 一 个 主 列表 是 一 个 “变量 *。 为 了 在 R 中 使 用 数据 ， 你 必须 定义 数据 的 一 个 子 
集 ， 该 数据 将 包括 与 变量 相关 的 项 的 列表 。 你 可 以 使 用 如 下 方式 实现 上 述 操 作 : 


> ice = open.ncdf("seaice_conc_monthly_nh_f08_198707_v02r00.nc") 
> # 创建 一 个 命名 为 "ice" 的 R 对 象 

> str(ice) # 表明 ice 是 由 其 他 列表 组 成 的 列表 
> icedata = get.var.ncdf(ice,"seaice_conc_monthly_cdr") 
> close.ncdf(ice) 




















= 





str(ice) 命令 的 结果 中 可 以 找到 变量 的 名 字 ，seaice_conc_monthly_cdr 是 为 本 例 所 选 的 名 
字 。 在 大 多 数 情况 下 ， 为 选择 一 个 变量 名 ， 你 需要 对 数据 有 更 多 的 了 解 。 








E.2.6 网 页 抓 取 

包含 在 网 页 中 的 数据 也 可 以 复制 。 这 通常 被 称 为 网 页 抓 取 (Web scraping)。 本 书 不 会 详细 
讨论 这 个 话题 ， 如 果 你 有 提取 网 页 数据 的 需求 ， 可 以 从 download.file() 和 readLines() 的 
帮助 文件 入 手 。RCurl 和 XML 等 包 也 许 能 派 上 用 场 。 
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本 书 为 每 个 练习 提供 了 答案 。 请 先 认 真 解答 习题 ， 然 后 再 来 看 答案 。 
有 多 种 解决 方案 。 如 果 你 想 出 的 方案 和 答案 不 同 ， 试 着 看 看 这 两 个 解决 方案 是 否 等 同 











两 个 方案 的 结果 是 否 相同 ?为 什么 相同 ， 为 什么 不 同 ? 


F.1 ek 1 到 练习 1-4 


F.2 练习 3-1 


attach(mtcars) 
stripchart(mpg ~ cyl, method = "jitter") 


这 有 助 于 将 汽车 分 开 一 点 。 现 在 ， 我 们 可 以 看 出 每 组 有 多 少 汽 车 了 。 


不 出 所 料 ， 气 缸 较 少 的 汽车 油耗 也 较 少 。 


F.3 练习 3-2 


install.packages("plotrix", dependencies=TRUE) 
Library(plotrix) 

attach(trees) 

dotplot.mtb(VoLlume) 





在 R 中 ， 很 多 问 


请 
Hp 
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有 一 种 拌 动 是 自动 的 。 即 便 如 此 ， 一 些 非 常 近 的 值 仍 会 跑 到 一 块 儿 。 解 决 此 问题 的 方法 之 
一 是 缩小 图 符 ， 代 码 如 下 : 














dotplot.mtb(Volume, pch = 20) # 或 者 
dotplot.mtb(Volume, pch = ".") # Kh! 
dotplot.mtb(Volume, pch = "/") # eee 


detach(trees) 


F.4 练习 4-1 


dotchart(USArrests$Murder, labels = row.names(USArrests)) 


州 的 名 字 太 大 ， 产 生 了 重 倒 ， 变 得 模糊 不 清 。 


F.5 练习 4-2 


load("Nimrod.rda") # .rda 说 明 被 保存 为 R 数 据 框 
dotchart(NimrodStime) 


H 





好 |! 


dotchart(Nimrod$time, Labels = Nimrod$performer, cex = .5) 


更 好 ! 


Nimrod2 = Nimrod[order(Nimrod$time), ] 
dotchart(Nimrod2Stime, Labels = Nimrod2Sperformer, cex = .5) 


好 极 了 ! 


F.6 练习 5-1 


# 在 屏幕 打印 结果 
library(nlme) 
attach(MathAchieve) 
boxplot(SES ~ Minority * Sex) 











# 图 片 到 文件 
pdf("SES.pdf") # 打开 一 个 装置 
library(nlme) 
attach(MathAchieve) 
boxplot(SES ~ Minority * Sex) 
dev.off() # 关闭 并 保存 文件 














把 SES.pdf 文件 插入 文字 处 理 程序 文档 。 





SES 与 Minority 和 Sex 的 关系 ， 似 乎 同 MathAch 与 Minority 和 Sex 的 关系 一 样 。 
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F.7 练习 5-2 


par(mfrow = c(1,2)) # 并 列 展示 2 张 
attach(mtcars) 

boxplot(mpg ~ cyl) 
library(plotrix) 

ehplot(mpg, cyl) 

detach(mtcars) 


par(mfrow=c(1,1)) # 重 置 为 1 张 图 片 /页 面 





R] 
































箱 线 图 展示 了 参考 点 ( 即 四 分 位 ) ，EH Ba Sie, ARF) (jittering ) 。 























你 可 以 为 EH 图 添加 盒子 和 胡须 : ehplot(mpg, cyl, box = T), 





F.8 练习 6-1 


library(multcomp) 


stem(sbp$sbp, scale = .5) 
stem(sbp$sbp, scale = 3) 
stem(sbp$sbp, scale = 4) 





TI 


选择 大 于 3 的 scale 得 到 的 图 似乎 之 无 价值 。 不 过 ， 其 他 数据 集 未 必 如 此 。 

















F.9 练习 6-2 


install.packages("aplpack", dependencies = T) 
Library(aplpack) 

attach(trees) 

stem. leaf.backback(Height, Volume) 
detach(trees) 


测量 单位 不 同 。 如 果 将 单位 标准 化 ， 会 发 生 什么 ? 


library(car) 
attach(Baumann) 
stem. leaf .backback(pretest.1, post.test.1) 


似乎 期 末 测 试 的 分 数 更 高 。 


F.10 练习 7-1 

















Library(SLeuth2) 

attach(case0302) 

par(mfrow = c(2,2)) # 一 个 页 面 展 示 4 张 图 片 
hist(Dioxin) 

hist(Dioxin, breaks = 20) 

hist(Dioxin, breaks = 30) 
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hist(Dioxin, breaks = 40) 
par(mfrow = c(1,1)) # 重 置 为 1 张 图 片 /页 面 














分 布 形状 变化 很 大 。 没 有 指定 中 断 时 ， 大 多 数 点 看 来 聚集 在 零 附 近 。 有 很 多 断 点 时 ， 添 加 





了 几 个 极 值 ， 分 布 看 起 来 几乎 是 对 称 的 。 带 状 图 强化 了 这 个 观点 。 看 来 仅 有 两 点 是 不 符合 
规则 的 。 它 们 为 什么 如 此 不 同 ?这 两 个 点 是 不 是 错 的 ? 应 该 将 它们 包括 在 内 吗 ? 

















F.11 练习 7-2 


library(Hmisc) 

library(car) 

attach(Burt) 
histbackback(IQbio, IQfoster) 
detach(Burt) 








两 个 直方 图 看 起 来 非常 相似 ， 只 是 IQbio 组 有 几 个 更 高 的 智商 值 。 

















Salary 数据 集中 男性 和 女性 的 工资 比 以 前 的 问题 更 难 























研究 ， 因 为 没有 单独 的 “男性 工资 ” 














和 “女性 工资 ”向 量 。 因 此 ， 为 了 使 用 histbackback()， 你 必须 创建 这 样 的 向 量 。 做 到 这 





一 点 有 几 种 方法 ， 如 下 代码 是 其 中 之 一 : 


attach(Salaries) 

m = subset(Salaries, sex == "Male") # 只 包 
f = subset(Salaries, sex == "Female") # 只 
histbackback(m$salary, fSsalary) 
detach(Salaries) 





ZN 


F.12 练习 8-1 


library(multcomp) 
eq2 = density(sbp$sbp, bw = 4) # 图 8-1c 
hist (sbp$sbp, 














main="c. Histogram + Kernel Density, bw = 4", 


col = "maroon", las = 1, cex.axis = .8, 
freq = F) # freq=F: 概率 密度 











lines(eq2,lwd = 2) # 在 已 有 的 直方 图 上 绘制 密度 














BEG bw = 5 时 弯曲 得 更 剧烈。 


eq2 = density(sbp$sbp, bw = 2) # 图 8-1c 
hist (sbp$sbp, 


main="c. Histogram + Kernel Density, bw = 2", 


col = "maroon", las = 1, cex.axis = .8, 
freq = F) # freq=F: 概率 密度 








Lines(eq2,lwd = 2) # 在 已 有 的 直方 图 上 绘制 密度 | 




















性 数据 


aH 
包含 女性 数据 


线 


线 


以 上 生成 了 十 几 处 弯曲 ， 细 市 并 不 真正 符合 直方 图 。 不 过 ， 直 方 图 本 身 就 是 非常 粗略 的 近似 。 
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eq2 = density(sbp$sbp, bw = 20) # 图 8-1c 

hist (sbp$sbp, 
main="c. Histogram + Kernel Density, bw = 20", 
col = "maroon", las = 1, cex.axis = .8, 
freq = F) # freq=F: 概率 密度 

lines(eq2,lwd = 2) # 在 已 有 的 直方 图 上 绘制 密度 曲线 



































这 条 线 比 bw = 10 时 平坦 ,但 变化 并 不 十 分 明显 。 


F.13 练习 8-2 


sbp 为 125 时 , y 坐标 大 约 在 0~0.25 的 中 间 位 置 ， 即 0.125 上 下 。 也 就 是 说 ， 选 择 一 个 收缩 





压 为 125 或 更 小 值 的 患者 的 概率 约 为 12.5%。 





通过 类 似 的 处 理 ， 我 们 可 以 确定 小 于 等 于 175 的 收缩 压 的 概率 约 为 900%。 选 择 收缩 压 大 于 





等 于 175 的 人 的 概率 是 1 一 prob[ 175 或 更 小 ]=1 一 0.9=0.1, BH 10%。 








yy 坐标 落 到 125~175 的 概率 是 prob[175 或 更 小 ] 一 prob[125 或 更 小 ] = 90% 
77.5%。 


F.14 练习 9-1 


12.5% = 


Male 条 在 每 一 组 的 上 方 ， 图 例 的 顺序 是 相反 的 ， 看 起 来 令 人 迷惑 。 把 legend() 中 的 sexlab 





改 为 c("Male", "Female"), 


F.15 练习 9-2 


library(car) 

attach(Salaries) 
library(epicalc) 
salK=salary/10000 
pyramid(salK,sex, binwidth = 1, 


col = "seagreen", 
main = "Salaries in 10,000s of Dollars", 
cex.bar.value =.4, cex.axis = .8) 


请 将 此 例 和 练习 7-2 的 结果 进行 对 比 。 


F.16 练习 10-1 


install.packages("HistData" ) 

library(HistData) 

attach(Nightingale) 

deaths = c(sum(Disease), sum(Wounds), sum(Other)) 
pie(deaths, labels=c('"Disease", "Wounds", "Other")) 
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deaths 命令 在 每 一 列 中 找到 总 值 ， 这 些 列 包括 Disease, Wounds 和 Other。 找 到 的 总 计 
用 来 绘制 饼 图 。Disease 和 其 他 原因 之 间 的 区 别 非常 明显 ， 但 其 他 变量 之 间 的 差异 不 易 
看 到 。 





F.17 练习 10-2 


load("Nimrod.rda") 
x = table(Nimrod$medium) 
x 
pie(x, labels = c("Brass band","Concert band","Organ", 
"Orchestra"), 
col = c("gold3","deepskyblue", "peachpuff3", "magenta" )) 


F.18 4511-1 


load("Nimrod.rda") 

den = density(NimrodStime) 
plot(den) 

rug(NimrodStime) 


library(nlme) 

boxplot (MathAchieve$SES ,main="Socioeconomic Status", ylab="SES 
score") 

rug(MathAchieveSSES) 








第 一 张 图 可 能 有 些 用 处 。 第 二 张 图 太 密 集 了 ， 我 们 在 大 部 分 的 数据 范围 内 都 无 法 看 到 
点 的 间隔 。 











F.19 练习 12-1 


Year = c(2004:2010) 
Europe = c(7.9, 7.9, 7.9, 7.8, 7.7, 7.1, 7.2) 
Eurasia = c(8.5, 8.5, 8.7, 8.6, 8.9, 8, 8.4) 


plot(Year, Europe, type = "L", 
col = "maroon", ylim = c(7,9), 
ylab = "Emissions", lwd = 2) 


# ylim 使 图 片 足够 大 ,因为 Eurasia 的 值 >7.9 

















lines(Year, Eurasia, 
Lty = "dashed", 
col = "steelblue", lwd = 2) 
legend("topleft", c("Eurasia", "Europe"), 
text.col = c("steelblue","maroon"), 
lty = c("dashed","solid")) 
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F.20 练习 12-2 


Library(SLeuth2) 
library(epade) 
attach(case0701) 
plot(Velocity, Distance) 





正如 所 料 ， 距 离 越 远 ， 速 度 越 快 。 


scatter.ade(Velocity, Distance, wall = 3, 
main = "The Big Bang", col="red") 


好 极 了 ! 


F.21 练习 13-1 


library(nlme) 
attach(MathAchieve) 
plot(SES, MathAch) 


这 里 可 能 有 近似 线性 的 关系 ， 但 我 们 很 难 确定 。 
library(nlme) 


attach(MathAchieve) 
sunflowerplot(SES, MathAch) 


这 张 向 日 获 图 并 没有 太 大 用 处 。 





library(nlme) 

attach(MathAchieve) 

Llibrary(hexbin) 

plot(hexbin(SES, MathAch), colramp = heat.ob) 











我 们 所 关注 的 关系 更 清晰 了 ， 图 形 几 乎 是 垂直 的 ， 也 就 是 说 ， 对 于 所 有 -1~1.5 的 SES 得 
分 ， 有 一 个 相同 宽度 的 数学 成 绩 范 围 。 























re 





detach(MathAchieve) 


F.22 练习 14-1 


library(ResearchMethods) 
load("baplot") # 如 果 保 存 了 baplot 
data(MFSV) 

attach(MFSV) 

baplot(MF,SV) 


这 里 没有 明显 的 模式 ， 仅 根据 帮助 文件 中 给 出 的 信息 ， 我 们 无 法 界定 在 临床 上 可 以 接受 的 
差异 。 





F.23 4515-1 


library(reshape2) 

library(car) 

attach(tips) 

tips$ratio = 100*(tip/total_bill) 
attach(tips) 

qqnorm(ratio) 

qqline(ratio) 


ratio 不 是 正 态 分 布 ， 它 上 端 是 偏 斜 的 。 
qq(time ~ ratio) 

lunch 和 dinner 的 分 布 截然 不 同 。 
qq(smoker ~ ratio) 


smoker 和 nonsmoker 的 分 布 也 截然 不 同 。 


F.24 练习 15-2 


Library(reshape2) 
library(car) 
attach(Vocab) 
qqnorm( vocabulary) 
qqline(vocabulary) 


vocabulary 似乎 并 不 是 正 态 分 布 。 





qqnorm(education) 
qqline(education) 


education 也 不 是 。 


qq(sex ~ vocabulary) 


female 占据 了 大 部 分 范围 ，mate 在 上 限 位 。 


F.25 练习 16-1 


library(car) 

attach(Ginzberg) 

head(Ginzberg) 

pairs(~ simplicity + fatalism + depression) 


scatterplotMatrix(~ simplicity + fatalism + depression) 
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library(corrplot) 
corrplot(y) 


library(GGally) 
ggscatmat(Ginzberg, columns = 1:3) 


F.26 练习 17-1 


library(scatterplot3d) 

library(epicalc) 

data(S02) 

scatterplot3d(SO2$smoke, S02$S02, SO2$deaths, 
highlight.3d = T, 
type = "h") 


ThE PREECE, EH SE A oe % PAI], ST, MARHA, attach(S02) 
和 scatterplot3d(smoke, S02, deaths) 无 法 工作 。 因 此 ， 这 里 要 用 S02$smoke 作为 灰 代 名 
称 。 死 亡 率 似乎 和 其 他 变量 正 相 关 。 


























F.27 练习 17-2 


library(lattice) 

library(epicalc) 

data(S02) 

levelplot(SO2Sdeaths ~ SO2Ssmoke + S02$S02) 


F.28 练习 18-1 


Library(SLeuth2) 
attach(ex1123) 
plot(S02, Mort) 











除了 一 个 高 死亡 率 的 点 之 外 ， 二 氧化 硫 〈SO2) 和 死亡 率 (mortality) 之 间 有 很 强 的 关系 。 


coplot(Mort ~ S02 | Educ) 





这 个 条 件 图 表明 ， 在 人 口 教 育 水 平 最 高 的 城市 里 ， 二 氧化 硫 很 少 ， 死 亡 率 较 低 。 也 许 在 拥 
有 主要 的 金融 企业 或 研究 中 心 的 城市 中 ， 烟 图 较 少 。 
































F.29 练习 19-1 


attach(mtcars) 

cars = as.matrix(mtcars) 

h = dist(scale(cars)) 

h2 = hclust(h, method = "single") 
plot(h2) 
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h = dist(scale(cars), method = "manhattan") 
h2 = hclust(h, method = "single") 
plot(h2) 


F.30 4519-2 


cars = as.matrix(mtcars) 

image(scale(cars), col = cm.colors(256)) 
image(scale(cars), col = rainbow(100)) 
image(scale(cars), col = terrain.colors(16)) 








诸如 此 类 ，colors 后 边 的 数字 表明 范围 内 有 多 少 种 颜色 。 








re 





F.31 练习 19-3 


install.packages("Amelia", dependencies = T) 
library(Amelia) 
missmap(airquality) 


library(epade) 
missiogram.ade(airquality) 


F.32 练习 20-1 


维基 百科 中 有 介绍 马赛 克 图 的 文章 (https:Wen.wikipedia.org/wiki/Mosaic_plot) ， 其 中 包括 
了 Titanic 数据 集 的 示例 。 也 可 以 访问 http://stackoverflow.com/questions/20228326/mosaic- 
plot-with-labels-in-each-box-showing-a-name-and-percentage-of-all-observa, 找到 该 数据 集 不 同 























方向 的 马赛 克 图 。 











F.33 练习 21-1 


attach(Nimrod) 
par(bg = "white", mfrow = c(2,2)) 


# 图 1 
x = table(medium) 
barplot(x, horiz = T, 





main = "Number of ensembles of each medium", 
names = c("Brass band", "Concert band", "Organ","Orchestra"), 
las = 1, cex.names = .8, col = "turquoise", space = 1.5) 

# 图 2 











cols = "cadetblue4" 
boxplot(time ~ medium, 
col = c("goldenrod","firebrick"), 
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ylab = "Time", xlab = "Medium", 
varwidth = T, 
main = "Performance times by medium", 
col.main = cols, 
col.axis = cols, 
las = 1, col.lab = cols, 
Names = CO) 
mtext(text = c("Brass band", Concert band", 
"Organ", "Orchestra"), 
side = 1, cex = .6, 
at = c(1,2,3,4), line = 1) 


# 图 3 

pro = subset(Nimrod, level == "p") 

am = subset(Nimrod, level == "a") 

plot(density(proStime), ylim = c(0,.028), 
main = "Professional vs. amateur groups", 
xlab = "Time in seconds", 


col = "navy", lwd = 2, 

bty = "n", xlim = c(100,350), 

family = "HersheyScript", 

cex.main = 1.4, cex.lab = 1.3) 
lines(density(am$time), lty = "dotted", 

col = "Lightblue4", lwd = 2) 
legend("topright", c("Amateur","Professional"), 

cex = .8, text.col = c("Lightblue4","navy"), 

bty = "n") 


# 图 4 

data2 = Nimrod[order(NimrodStime), ] 

dotchart(data2$time, 
labels = data2$performer, cex = .34, 
main = "Performance Time by Performer", 
xlab = "Performance time", pch = 19, 


col = c("violetredi", "violetred4"), 

lcolor = "gray90", 

cex.main = 1.9, 

col.main = "violetred4", 

cex.lab = 1.4, 

family = "HersheySerif") 
detach(Nimrod) 





Mi sx G 


故障 排查 :为 什么 我 的 代码 不 工作 





初学 者 几乎 做 什么 都 会 犯错 误 。 幸 运 的 是 ，R 初学 者 犯错 误 时 会 收 到 报错 信息 ， 得 到 修改 
提示 。 遗 憾 的 是 ， 这 些 消 息 往往 含糊 不 清 ， 语 起 不 详 。 只 要 在 及 方面 有 一 定 的 经 验 ， 你 就 
可 以 很 快 解决 这 个 问题 。 本 附录 列 出 了 一 些 容易 出 现 的 错误 以 及 相关 的 报错 信息 。 这 些 都 
是 我 曾经 犯 过 的 错误 ， 有 些 错 误 我 还 犯 了 不 止 一 次 。 


G.1 拼写 错误 


拼写 错误 (misspelling) 是 最 常见 的 错误 之 一 。 然 而 ，R 的 词 库 中 显然 没有 misspelling 这 
个 词 ， 因 此 这 个 问题 会 以 其 他 多 种 方式 标注 ， 如 下 所 示 : 



































> attach(trees) 

> plt(Girth, Height) 

Error: could not find function "plt" 
在 这 个 例子 中 ，R 提示 称 我 们 想 使 用 的 函数 并 不 存在 ， 或 者 处 于 隐藏 状态 ， 其 实 这 里 只 是 
拼写 出 现 了 错误 ! 重新 输入 拼写 正确 的 命令 ， 如 下 所 示 : 








> plot(Girth, Height) 


实际 上 ， 你 不 需要 重新 输入 整个 命令 。 上 面 这 个 例子 的 问题 并 不 严重 。 不 过 ， 你 有 时 会 用 
到 很 长 的 命令 ， 重 复 输 入 是 相当 麻烦 的 。 在 这 种 情况 下 ， 你 有 两 种 快捷 方式 可 以 选择 。 


。 复制 并 粘贴 错误 行 到 最 新 的 提示 符 (>) ， 修 正 错误 ， 然 后 按 下 回 车 (Return 或 Enter) 。 
。 按 向 上 键 ， 复 制 前 面 一 行 命令 。 在 这 里 ， 你 还 可 以 进行 编辑 。 按 向 上 键 两 次 ， 你 将 复制 
上 方 两 行 命令 。 








220 


另外 一 个 例子 如 下 所 示 : 


> plot(Girth, Height, color = "red") 
Warning messages: 


1: In plot.window(...) : "color" is not a graphical parameter 

2: In plot.xy(xy, type, ...) : "color" is not a graphical 
parameter 

3: In axis(side = side, at = at, labels = labels, ...): 
"color" is not a graphical parameter 

4: In axis(side = side, at = at, labels = labels, ...) : 
"color" is not a graphical parameter 

5: In box(...) : "color" is not a graphical parameter 

6: In title(...) : "color" is not a graphical parameter 


这 组 消息 看 起 来 很 可 怕 ， 但 仔细 看 每 一 行 ， 你 会 发 现 R 只 是 不 能 执行 通过 我 们 使 用 的 单词 
color 罢了 。 要 找到 正确 的 缩写 ， 输 入 ?plot。 如 下 所 示 ， 只 需 把 color 改 为 coL， 程 序 就 
能 很 好 地 运行 了 : 





> plot(Girth, Height, col = "red") 
再 看 下 一 个 例子 : 


> library(poltrix) 
Error in library(poltrix) : there is no package called 'poltrix' 


确实 ， 这 里 没有 名 为 poltrix 的 包 。 检 查 拼写 ! 





> library(plotrix) 


现在 没有 问题 了 ! 注意 ， 本 市 中 三 个 例子 的 问题 都 是 拼写 有 误 。R 却 给 出 了 三 种 完全 不 同 
的 响应 。 这 说 明 错 误 信 息 不 一 定 要 从 字面 上 理解 。 要 了 解 这 些 消息 的 真正 含义 ， 你 需要 一 


点 经 验 。 


G.2 令 人 困惑 的 大 写 / 小 写 


记 住 ，R 认为 相同 字母 的 大 写 和 小 写 完全 不 同 。 在 下 面 这 个 例子 中 ，R 找 不 到 height 对 
象 ， 因 为 没有 这 样 的 对 象 : 


























> attach(trees) 

> plot(Girth, height) 

Error in xy.coords(x, y, xlabel, ylabel, log) : object 'height' 
not found 


把 height 改 为 Height， 命 令 就 可 以 运行 了 。 如 果 你 记 不 住 准 确 的 变量 名 ， 可 以 使 用 
str(trees) 命令 或 者 head(trees) 进行 查找 。 
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G3 AD HAS) 的 圆 括号 


在 下 面 的 例子 中 ，R 不 执行 命令 ， 并 且 打 印 出 “+” 而 不 是 “>”: 








> plot(density(Girth) 
十 








这 意味 着 R 在 等 你 输入 更 多 信息 。 在 这 种 特殊 情况 下 ， 在 “+” 之 后 再 输入 一 个 右 括 号 即 
可 让 程序 运行 。 




















下 面 这 个 例子 中 圆 括 号 太 多 。 错 误 信息 指向 罪魁 祸首 : 














> plot(density(Girth))) 
Error: unexpected ')' in "plot(density(Girth)))" 
> 





使 用 带 括号 的 表达 式 时 ， 左 括号 的 数量 必须 等 于 右 括号 的 数量 。 如 果 输入 的 命令 很 长 ， 在 
你 按 下 回 车 键 之 前 ， 最 好 数 数 左 括号 和 右 括号 的 数量 。 
G.4 忘记 加 载 包 


记 住 ， 如 果 不 在 基础 R 中 却 打 算 在 会 话 中 使 用 你 安装 的 附加 包 ， 那 么 需要 事先 加 载 。 假 设 
你 想 对 HistData 包 中 的 Nightingale 数据 集 执行 数 据 分 析 ， 却 收 到 了 下 面 这 条 信息 : 























> attach(Nightingale) 
Error in attach(Nightingale) : object 'Nightingale' not found 
> 





这 与 拼写 错误 产生 的 错误 信息 相同 ， 但 二 者 实际 上 完全 不 同 。 此 处 的 解决 方案 是 首先 加 载 
HistData， 代 码 如 下 : 


> library(HistData) 
> attach(Nightingale) 











这 样 一 来 ， 在 退出 人 之 前 ， 你 就 可 以 使 用 HtstData 中 的 任意 命令 或 数据 集 ， 而 不 用 再 次 
加 载 了 7。 下 次 开启 R 时 ， 如 果 想 使 用 Histpata 中 的 内 容 ， 你 还 需要 再 次 加 载 它 。 


AY + rm s 
G.5 BURRE 
本 书 中 很 多 例子 使 用 library) 命令 加 载 包 。 记 住 ， 在 加 载 包 之 前 ， 必 须 使 用 install. 
packages() 函数 安装 它 ， 否 则 将 会 看 到 如 下 信息 。 























> library(abctools) 
Error in library(abctools) : 
there is no package called '‘abctools' 
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包 只 需要 安装 一 次 ， 安 装 之 后 会 永远 驻 留 在 你 的 计算 机 上 。 然 而 ， 你 必须 在 需要 它 的 会 话 
中 加 载 它 。 

输入 前 面 示例 中 的 命令 时 ， 我 还 没有 在 计算 机 上 安装 abctools 包 。 我 可 以 使 用 如 下 命令 安 
装 它 : 











> install.packages("abctools") 





使 用 下 面 这 个 命令 会 更 好 : 











> install.packages("abctools", dependencies = TRUE) 





这 个 命令 不 仅 安装 了 abctools， 也 安装 了 abctools 可 能 依赖 的 任意 其 他 包 ， 即 abctools 
本 身 使 用 的 包 。 在 基于 Windows 的 计算 机 上 ， 你 还 可 以 在 “ 包 ”(Packages) 菜单 中 选择 
“ZEL” (Install Package(s)) ， 以 此 完成 安装 。 打 开 CRAN mirror 窗口 ， 选 择 一 个 镜像 网 
站 或 者 使 用 一 个 已 加 高 亮 的 网 站 并 点 击 OK， 然 后 选择 你 想 要 的 包 即 可 。Mac 用 户 可 以 进 
入 “ 包 和 数据 ”(Packages & Data) 菜单 ， 选 择 “ 包 安装 程序 ”(Package Installer) ， 单 击 
“获取 列表 ”(Get List) 按钮 ， 然 后 选择 一 个 包 。 


除了 最 初 的 儿童 ， 本 书 在 library) 出 现时 都 不 会 提醒 你 安装 包 。 因 为 library) 出 现 了 
很 多 次 ， 所 以 我 假设 你 知道 需要 做 哪些 准备 。 如 果 你 不 确定 以 前 是 否 已 经 安装 了 包 ， 可 以 
使 用 如 下 命令 查看 你 安装 了 哪些 包 ，: 























> installed.packages() # installed, 不 是 install 





这 个 命令 提供 的 信息 可 能 超出 你 的 需要 ， 它 可 以 在 所 有 R 系统 中 运行 。 在 基于 Windows 
的 机 器 上 ， 还 有 一 种 便捷 方式 可 以 查看 现 有 包 ， 就 是 进入 “ 包 ”(Packages) 菜单 并 选择 
“加 载 包 ”(Load Packages), Mac 用 户 可 以 进入 “ 包 和 数据 ”(Packages & Data) 菜单 并 选 
择 “ 包 管理 


G.6 在 加 载 的 包 中 未 找到 数据 集 


加 载 完毕 之 后 ， 包 中 的 数据 集 应 该 是 可 用 的 ， 如 下 所 示 : 








器 ”(Package Manager)。 





> library(reshape2) # 加 载 包 








> head(tips) # 使 用 包 中 数据 集 

total_bill tip sex smoker day time size 
1 16.99 1.01 Female No Sun Dinner 2 
2 10.34 1.66 Male No Sun Dinner 3 
3 21.01 3.50 Male No Sun Dinner 3 
4 23.68 3.31 Male No Sun Dinner 2 
5 24.59 3.61 Female No Sun Dinner 4 
6 25.29 4.71 Male No Sun Dinner 4 
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上 面 的 程序 运 








> Libra 
Loading 
Loading 
Loading 
Loading 
Loading 
Warning 
' find 
Use 'fi 
See hel 


> head( 
Error i 


Ectopic 是 epicalc 包 中 的 数据 集 。 


去 行 正 常 。 但 有 时 这 


ry(epicalc) 


required package: 
required package: 
required package: 
required package: 
required package: 


message: 





foreign 
survival 
splines 
MASS 
nnet 


.package' is deprecated. 


nd.package' instead. 


p("Deprecated" ) 


Ectopic) 
n head(Ectopic) 

















: object 'Ectopic' not found 


里 会 出 现 问 题 ， 使 得 R 找 不 到 数据 ， 如 下 所 示 : 


况 时 ， 你 可 以 再 加 a 代码 如 下 : 


> data( 
> head( 
id ou 


On AUNE 
CA 上 ww 


这 样 就 没 问 





G.7 


逗号 会 告知 R 一 个 参数 在 哪 是 


Deli never IA 





Ectopic) 
Ectopic) 
tc hia gravi 


1 Deli ever IA 1-2 
Deli ever IA 3-4 
Deli never IA 1-2 
Deli never IA 1-2 
1-2 
1-2 


IA ever IA 


题 了 。 


遗漏 一 个 


呢 ? 来 看 看 下 面 这 段 代码 : 


> plot( 
Error: 





Girth, Height col = 


unexpected symbol 





=| 
jas 
结束， 下 一 个 参数 从 哪里 开始 。 





"red") 
in "plot(Girth,Height col" 





遗漏 一 个 3 


应 当 出 现 逗 号 的 地 方 不 能 出 现任 何其 他 符号 。 参 数 必 须 由 逗号 分 隔 ， 如 下 所 示 : 


> plot(Girth, Height, col = "red") 


G.8 复制 粘贴 错误 





下 面 的 命令 从 会 











>> hea 
Error: 


d(Nightingale) 


unexpected '>' in 


mou 


刚 被 加 载 ，R 却 提示 它 找 不 到 该 数据 集 。 发 生 这 种 情 


话 中 早 些 时 候 执行 成 功 的 命令 复制 而 来 。 错 误 信息 可 能 会 使 你 措 不 着 头脑 : 
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此 处 的 问题 是 ， 该 副本 包括 提示 符号 “>”， 于 是 在 粘贴 之 后 ， 该 命令 行 有 两 个 提示 符 。 这 
个 问题 有 两 种 解决 方法 。 


。 只 复制 “>” 之 后 的 命令 行 部 分 。 
。 在 粘贴 之 后 ， 按 下 回 车 键 之 前 ， 删 除 “> 。 


G.9 目录 问题 一 一 不 能 加 载 保 存 的 文件 


你 可 能 发 现 自己 先前 保存 的 文件 无 法 检索 出 来 。 即 使 拼写 正确 ， 你 也 可 能 找 不 到 文件 。 此 
处 可 能 出 现 这 样 的 错误 信息 : 











cannot open the connection 
或 者 这 样 的 错误 信息 : 
no such file or directory 


这 很 可 能 是 因为 你 搜索 的 目录 不 对 。 换 名 话说 ， 该 文件 不 在 你 的 工作 目录 中 。 





首先 ， 请 阅读 1.7 市 。 如 果 这 部 分 没 能 解决 你 的 问题 ， 那 就 打开 工作 目录 ， 看 看 你 要 找 的 
文件 是 否 真 的 存在 。 在 基于 Windows 的 计算 机 上 ， 你 可 以 进入 “文件 ”(Eile) 菜单 ， 选 择 
“显示 文件 ”(Display file(s))。 在 Mac 上 ， 你 可 以 进入 “文件 ”(File) 菜单 ， 选 择 “ 打 开 
文件 ”(Open Document)。 




















不 管 是 在 那个 平台 上 ， 只 要 文件 不 在 工作 目录 中 ， 你 就 需要 搜索 它 ， 然 后 执行 以 下 操作 之 





。 把 它 移动 到 工作 目录 中 。 

。 使 用 setwd() 命令 把 工作 目录 改 为 放置 文件 的 目录 。 

。 在 load() 命令 中 给 出 文件 的 完整 路 径 。 例 如 ， 如 果 需 要 的 cands.rda 文件 在 目录 /Users/ 
yourname/Desktop/R Things/ 中 ， 你 可 以 使 用 如 下 命令 。 


























Load("/Users/yourname/Desktop/R Things/cands.rda") 


# 注意 引号 


这 里 一 定 要 确保 拼写 正确 ， 斜 枉 、 引 号 等 符号 也 要 输入 正确 。 


G.10 ”丢失 文件 扩展 名 


这 其 实 不 是 R 的 问题 ， 但 很 容易 给 R 用 户 带 来 问题 。 细 想 在 1.8.3 节 创 建 的 数据 集 ， 那 
是 以 电子 表格 输入 的 ， 以 CSV 文件 导出 。 根 据 你 的 选择 ， 在 基于 Windows 的 计算 机 或 者 
Mac 上 ， 文 件 名 可 能 显示 为 Nimrod.Tempo。 
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这 是 因为 你 的 计算 机 设置 为 不 显示 文件 扩展 名 。 如 果 我 们 记 住 的 是 这 个 文件 名 ， 发 出 的 是 
带 有 此 文件 名 的 命令 ， 那 么 R 会 表示 这 样 的 文件 不 存在 ， 如 下 所 示 : 











> Nimrod <- read.csv("Nimrod.Tempo", header = TRUE) 
Error in file(file, "rt") : cannot open the connection 
In addition: Warning message: 
In file(file, "rt") : 
cannot open file 'Nimrod.Tempo': No such file or directory 


简单 地 给 文件 名 添加 扩展 名 也 没 问 题 ， 如 下 所 示 : 





> Nimrod <- read.csv("Nimrod.Tempo.csv", header = TRUE) 
如 果 丢 失 文件 扩展 名 .R， 尝 试 获取 脚本 时 ， 你 可 能 会 遇 到 一 个 类 似 的 问题 ， 如 下 所 示 : 


> source("NimTotals") 

Error in file(filename, "r", encoding = encoding) : 
cannot open the connection 

In addition: Warning message: 

In file(filename, "r", encoding = encoding) : 


cannot open file 'NimTotals': No such file or directory 





添加 扩展 名 后 ， 如 下 代码 可 以 成 功 运行 : 


> source("NimTotals.R") # 运行 良好 ! 


G.11 不 要 假定 所 有 的 包 都 使 用 相同 的 参数 缩写 


尽管 很 多 包 和 基础 R 包 在 参数 和 缩写 使 用 方面 是 一 致 的 ， 但 也 有 不 一 致 的 情况 ， 比 如 下 面 
这 个 例子 : 

















> scatterplot3d(Solar.R, Ozone, Wind, col = "blue") 
Error in scatterplot3d(Solar.R, Ozone, Wind, col = "blue") : 
argument 4 matches multiple formal arguments 
参数 col 几乎 是 R 包 中 的 通用 标准 ， 但 查看 scatterplot3d 的 帮助 文件 ， 你 会 发 现 该 包 不 
能 选择 这 个 参数 ， 而 是 需要 使 用 以 下 参数 ; 


> scatterplot3d(Solar.R, Ozone, Wind, color = "blue") 


G.12 ”过 时 的 包 / 包 不 兼容 


许多 包 需 要 其 他 包 处 于 可 用 状态 。 如 果 一 个 包 无 法 加 载 ， 那 可 能 是 因为 它 所 依赖 的 包 
存在 。 如 果 有 一 个 错误 消息 显示 这 类 问题 ， 例 如 点 名 指出 了 一 ee REI 
那么 你 也 许 只 需要 安装 所 需 的 包 。 有 时 ， 问 题 可 能 在 于 安装 包 的 版 本 。 以 下 命令 可 以 确 
认 这 一 点 
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> library(help = packagename) 
例如 ， 如 果 加 载 Remdr 时 遇 到 困难 ， 可 以 输入 如 下 命令 : 
> library(help = Rcmdr) 


你 会 看 到 关于 该 包 的 基本 信息 文件 ， 其 中 包括 需要 的 /建议 的 包 和 版 本 。 下 面 是 该 文件 作 
者 命名 后 边 的 一 小 部 分 : 


Depends: R (>= 3.0.0), grDevices, utils, splines, 
RemdrMisc (>= 1.0-2), car (>= 2.0-21) 

Imports: tcltk, tcltk2 (>= 1.2-6), markdown, knitr, 
abind 

Suggests: aplpack, colorspace, effects (>= 3.0-1), 


e1071, foreign, grid, Hmisc, lattice, 

leaps, Lmtest, MASS, mgcv, 

multcomp (>= @.991-2), nlme, nnet, 

relimp, rgl, rJava, RODBC, sem 

(>= 2.1-1) 
这 有 段 摘录 表明 ， 安 装 在 这 台 计 算 机 上 的 Rcmdr 的 版 本 要 求 R 的 版 本 为 3.0 或 更 高 。 这 和 已 
经 安装 其 他 儿 个 包 也 有 关系 ， 比 如 grDevices、utils， 等 等 。 此 外 ， 某 些 软 件 包 必 须 是 特 
定 的 版 本 ， 例 如 car 必须 是 2.0-21 或 更 高 版 本 。 如 果 没 有 匹配 正确 ， 那 么 Remdr 就 无 法 加 
载 或 无 法 正常 工作 。 解 决 此 问题 最 简单 的 方法 就 是 重 装 Remdr 及 其 依赖 包 ， 如 下 所 示 。 























> install.packages("Rcmdr", dependencies = TRUE) 








要 重新 安装 R。 


包 还 会 引入 帮助 文件 ， 比 如 对 Remdr 的 GUI 来 说 十 分 关键 的 tcttk。 如 果 没 有 这 个 包 ， 那 
么 你 应 该 重新 安装 R。 此 包 通 常 是 R 的 一 部 分 ， 你 需要 确保 安装 的 是 二 进 制版 本 。 如 果 你 
的 计算 机 采用 的 是 Mac OS X 10.9 或 更 高 版 本 ， 那 么 还 需要 安装 XQuartz。 











最 后 ， 有 一 些 包 是 建议 安装 的 。 没 有 这 些 包 ，Rcndr 只 有 一 部 分 可 以 正常 工作 。 
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Mi Sx H 


本 书 介绍 的 BR 函数 











本 附录 列 出 本 书 所 用 到 的 函数 ， 以 便于 快速 查询 。 这 并 不 是 完整 的 R 函数 列表 。 要 获取 某 
函数 x 的 更 多 信息 ， 请 查看 索引 ,或 者 输入 help(x) 或 ?x 进行 查询 。 


H.1 数据 输入 /输出 
load() 
重新 加 载 之 前 用 save() 创建 的 R 数据 集 。 
open.ncdf() 

打开 .ncdf 文件 (ncdf 包 )。 


Quandl() 
读 取 Quandl 数据 集 (Quandl 包 )。 


li 
| 








read.csv() 

读 取 .csv 格式 的 文件 并 创建 数据 框 。 
read.fwf() 

读 取 固 定 宽度 的 文件 。 











read.spss() 

读 取 SPSS 数据 集 (foreign 包 )。 
read.table() 

读 取 表格 格式 的 文件 并 创建 数据 框 。 
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read. txt() 


读 取 .txt 格式 的 文件 并 创建 数据 框 。 


FA 





read.xport() 
读 取 SAS XPORT 文件 (foreign 包 )。 


readWorksheetFromFile() 


读 取 Excel 电子 表格 (XLConnect 包 )。 

















save() 


把 R 对 象 写 入 工作 目录 或 者 指定 文件 。 








xmlToDataFrame() 
读 取 XML 文件 (XML 包 )。 


H.2 数据 集 
attach() 
为 接 下 来 的 分 析 选 择 特定 的 数据 集 。 
data() 
确定 有 哪些 可 用 的 (无 参数 ) 数据 集 或 者 加 载 数据 集 。 


data.frame() 


合并 两 个 或 多 个 向 量 ， 生 成 一 个 新 的 数据 


TAT 
o 








detach 
ee ee N 
edit() 
编辑 数据 集 。 
fix() 
编辑 数据 集 。 
head() 
查看 从 数据 集 顶 部 选择 的 行 。 





str() 
确定 对 象 的 结构 。 
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subset() 
创建 一 个 指定 数据 框 的 子 集 。 





tail() 
查看 从 数据 集 底 部 选择 的 行 。 


H3 绘图 函数 1 一 一 创建 图 表 
barplot() 
生成 条 形 








PR 








bland.altman.ade() 
+E AK Bland-Altman 图 (epade 包 )。 





boxplot() 
生成 箱 线 图 。 








coplot() 
生成 协同 图 (条 件 图 )。 














cor.plot() 
生成 相关 性 分 析 图 (psych 包 )。 





corrplot() 
生成 相关 性 分 析 图 (corrplot 包 )。 





dotchart() 
生成 点 图 。 


dotplot.mtb() 
生成 如 统计 软件 Minitab 中 的 点 图 (plotrix 包 )。 








ehplot() 
生成 EH 图 (plotrix 包 )。 


fan.plot() 
生成 局 形 图 (plotrix 包 ) 。 














ggpairs() 
生成 广义 的 对 图 (GGally 包 )。 
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ggplot() 
生成 多 种 类 型 的 图 (ggplot2 包 ) 。 














ggscatmat() 


生成 顶部 带 有 相关 系数 的 散 点 图 矩阵 (GGally 包 )。 


gpairs() 
生成 广义 的 对 图 (gpairs 包 )。 


grid() 
在 现 有 图 上 绘制 网 格 。 
heatmap() 





heatmap.2() 
生成 增强 的 热 图 (gplots 包 )。 


hexbin() 
生成 hexbin 图 (hexbin 包 )。 





hist() 
生成 直方 图 。 





Hist() 
为 多 个 组 生成 一 张 直方 图 (RcmdrMisc 包 ) 。 





histbackback() 
ARTA HE (Hmisc 包 )。 








histogram() 


为 多 组 生成 直方 图 (lattice 4), 














histStack() 
ABGEE ATE (plotrix 包 )。 


image() 


创建 热 图 。 








levelplot() 
生成 伪 色 图 (lattice 包 )。 
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missiogram() 


生成 缺失 值 的 图 (epade 包 ) 。 





missmap() 





生成 缺失 值 的 图 (Amelia 包 )。 


mosaic() 


生成 马赛 克 图 (vcd 包 )。 


mosaicplot() 


生成 马赛 克 图 。 





pairs() 


创建 散 点 图 矩阵 。 














pie() 
生成 饼 图 。 
pie3D() 
生成 三 维 饼 图 (plotrix 包 ) 





plot() 
生成 散 点 图 或 其 他 图 。 











PlotBubble() 
生成 气泡 图 (DescTools 包 ) 














pyramid() 
生成 金字 塔 图 (epicalc 包 ) 








qq() 
生成 分 位 数 - 分 位 数 (QQ ) 


qqnorm() 
生成 理论 分 位 数 的 QQ 图 。 





qqplot() 
生成 QQ 图。 





scatter3d() 
生成 带 有 回归 面 的 三 维 散 点 























o 


o 


o 


图 (lattice 包 )。 








图 (car 包 )。 
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scatterplot() 


生成 有 高 级 特性 的 散 点 图 (car 包 )。 





scatterplot3d() 
生成 三 维 散 点 图 (scatterplot3d 包 )。 


scatterplotMatrix() 


生成 有 高 级 特性 的 散 点 图 矩阵 (car 包 ) ， 另 一 形式 为 spm()。 


scatter .ade() 


生成 有 高 级 特性 的 散 点 图 (epade 包 )。 





smoothScatter() 


生成 平滑 散 点 图 。 


spinepLot() 
ERWEE (spinogram) 。 





stem() 





stem. leaf () 
AE MAH A (aplpack 包 )。 


stripchart() 


生成 带 状 图 。 





sunf LowerpLot() 
AE CTA] HZ. 














xypLot() 
生成 散 点 图 (lattice 包 ) 。 


H.4 绘图 函数 2 一 一 给 现 有 图 添加 特征 
abline() 
SUG LAE. 











axis() 


为 当前 图 添加 坐标 轴 。 
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Legend () 
在 当前 图 上 添加 图 例 。 








lines() 


在 当前 图 上 添加 曲线 。 


mtext() 


在 当前 图 的 边缘 添加 文本 。 





par() 
设置 或 查询 绘图 参数 。 





plotmath 
参见 2plotmath ， 在 图 上 包含 数学 表达 式 。 


points() 
在 当前 图 上 画 点 。 





polygon() 
画 /填充 多 边 形 。 


qqline() 
为 QQ 图 添加 一 条 线 。 





rug() 
在 当前 图 上 画 一 张 地 毯 图 。 


text() 
在 当前 图 的 绘图 区 域 输入 文字 。 


H.5 其 他 


asTheEconomist() 


模仿 点 阵 图 的 样式 (latticeExtra 包 )。 





























合并 参数 以 生成 向 量 。 








打印 函数 的 输出 。 
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colors() 


返回 R 的 颜色 名 称 。 


demo() 
演示 选中 的 R 的 功能 。 


dev .off() 
完成 写 入 图 形 设备 的 操作 ， 并 保存 文件 。 














jpeg() 


打开 以 jpeg 格式 保存 的 文件 ， 必 须 以 dev.off() 结束 。 


order() 


根据 选 定 的 变量 的 值 ， 将 数据 框 的 行 重新 排序 




















par() 
设置 或 查询 图 表 参 数 。 
png() 





打开 以 .png 格式 保存 的 文件 ， 必 须 以 dev.off() 结束 。 





print() 
打印 输出 。 


rgl.snapshot() 
将 截图 保存 为 .png 文件 (rgl 包 )。 


H.6 € 


available.packages() 


检查 有 哪些 包 可 供 下 载 。 

















install.packages() 
下 载 并 安装 一 个 或 多 个 R 包 。 





installed.packages() 
检查 计算 机 上 安装 了 哪些 包 


library() 
在 当前 会 话 中 加 载 之 前 安装 的 包 。 





本 书 介绍 的 R 函 数 


235 


H.7 统计 





R 有 很 多 统计 函数 ， 本 书 没有 一 一 介绍 。 我 们 提 到 过 的 函数 包括 下 面 这 些 














aggregate() 

把 数据 分 成 子 集 ， 计 算 每 个 子 集 的 概括 统计 量 。 
cor() 

计算 皮尔 森 相 关系 数 。 
CrossTable() 


以 SPSS 或 SAS 格式 生成 列 联 表 (gmodels 包 )。 


density() 

计算 核 密度 估计 。 
dist() 

计算 矩阵 行 乙 间 的 距离 。 
ecdf() 

计算 经 验 积累 分 布 图 数 。 
Ecdf() 

计算 经 验 积累 分 布 图 数 (Hmisc 包 )。 
hclust() 

执行 分 层 集群 分 析 。 
lm() 

计算 线性 模型 (比如 回归 模型 )。 








max() 


计算 向 量 的 最 大 值 。 





mean() 


计算 向 量 的 均值 。 




















median() 


计算 向 量 的 中 位 数 。 








min() 


计算 向 量 的 最 小 值 。 
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quantile() 
寻找 一 个 向 量 的 分 位 数 。 





scale() 


计算 矩阵 列 的 中 心 和 /或 规模 。 


sd() 
计算 向 量 的 标准 差 。 
summary() 


计算 向 量 的 若干 概括 统计 量 。 
table() 
计算 单 向 或 双向 频率 。 





var() 


计算 向 量 的 方差 。 


H.8 用 户 自 定义 函数 和 脚本 


function() {} 
创建 自 定义 函数 。 


AY 
t 





source() 


执行 脚本 。 


H.9 工作 空间 和 目录 


1s() 
确定 当前 目录 中 有 哪些 对 象 。 





getwd() 
查找 当前 工作 目录 。 


setwd() 
改变 工作 目录 。 





本 书 介绍 的 R 函 数 
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关于 作者 

John Jay Hilfiger， 统 计 学 家 ， 数 据 分 析 专 家 ， 拥 有 生物 统计 学 硕士 学 位 ， 曾 在 三 所 重点 高 
R (罗切斯特 大 学 、 爱 荷 华 大 学 和 康 奈 尔 大 学 ) 担任 统计 / 计算 机 分 析 员 。 他 曾 以 副 院 长 
和 主任 的 身份 参与 制度 研究 ， 充 分 利用 了 其 数据 方面 的 背景 。 此 外 ，Hilfiger 还 是 一 位 作曲 
家 和 编 曲 家 ， 发 表 过 100 多 首 作品 ， 他 曾 是 一 名 音乐 教授 ， 拥 有 音乐 硕士 和 博士 学 位 。 他 
的 大 部 分 经 历 都 涉及 用 数字 、 图 形 和 洞 见 帮助 他 人 分 析 数 据 ， 写 作 这 本 书 也 是 这 项 事业 的 
Eip, 





关于 封面 

本 书 封面 的 动物 是 红 黄 拟 吃 木 岛 〈 学 名 Trachyphonus erythrocephalus) 。 它 是 42 种 型 形 目 乌 
类 之 一 ， 分 布 于 非洲 东部 国家 (如 肯尼亚 和 南 苏丹 ) ， 栖 息 地 地 形 不 平整 ， 如 河床 、 悬 崖 ， 
ARARA É, 





这 种 鸟 外 表 独 特 、 绚 丽 多 彩 。 翅 膀 由 黑色 、 红 色 和 黄色 组 成 ， 黑 色 部 分 散布 着 白色 斑点 
(主要 在 翅膀 和 背部 ) 。 雄 鸟 和 肉 鸟 头 部 大 部 分 呈 红 色 ， 雄 性 有 黑色 的 额头 和 小 羽 冠 。 脖 子 
和 胸部 为 橙 红 色 ， 下 半身 剩余 部 分 为 黄色 。 尾 巴 上 有 黑色 和 黄色 的 条 纹 。 峻 性 和 幼 鸟 比 雄 
性 颜色 瞳 淡 ， 并 且 栖 色 和 红色 部 分 比 黄色 和 白色 少 。 成 年 鸟 身长 可 达 9 英 寸 BRAR 
寸 ， 重 约 72 #, 


红 黄 拟 吸 木 岛 是 杂食 动物 ， 食 物 包 括 各 种 水 果 、 种 子 和 昆 贝 。 它 们 也 吃 较 小 的 鸟 。 由 于 所 
在 的 生存 环境 没有 鲜明 的 季节 变化 ， 红 黄 拟 吸 木 鸟 只 为 获取 食物 而 四 处 活动 。 

由 于 准备 繁殖 和 养育 幼稚 过 于 辛苦 ， 一 对 红 黄 拟 咏 木 鸟 往 往 需 要 一 个 或 多 个 帮手 。 通 常 ， 
这 种 鸟 会 在 白蚁 筑 梨 的 地 方 挖 一 条 隧道 ， 梨 室 就 在 隧道 尽头 ， 由 羽毛 和 草 搭 就 。 一 梨 一 般 
有 2~6 个 蛋 。 有 蛋 钱 化 后 ， 幼 骏 需 要 有 蛋白质， 父母 和 帮手 主要 喂 以 昆虫 。 即 便 准 备 就 绪 ， 幼 
雏 也 不 会 离开 鸟巢 ， 而 是 会 留 下 来 帮助 父母 养育 下 一 窟 幼 锥 ， 直 到 该 组 建 自己 的 家 庭 。 
O'Reilly 封面 上 的 许多 动物 都 濒临 灭绝 ， 它 们 对 于 世界 而 言 都 弥 足 珍 责 。 想 要 了 解 如 何 提供 


更 多 帮助 ， 可 访问 animals.oreilly.com。 


封面 图 片 基于 Cassell’s Natural History 的 黑白 版 画 ， 由 Karen Montgomery 着 色 而 成 。 
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。 亲身 实践 三 个 数据 分 析 项 
。 充分 利用 R 的 包 系 统 和 代码 调试 工 
。 在 学 习 的 过 程 中 ， 实 践 和 应 用 R 的 诸多 编程 概念 
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。 简单 易 用 ， 拖 放 成 图 ， 无 需 统计 、 计 算 机 背景 ， 即 可 进行 可 视 化 分 析 
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